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内 容 拓 要 


这 本 书 旨 在 帮助 那些 希望 用 数学 工具 解决 实际 问题 的 人 们 ， 仅 有 的 
要 求 可 能 就 是 懂 一 点 概率 知识 和 程序 设计 。 贝 叶 斯 方法 是 一 种 第 见 的 利 
用 概率 学 知识 去 解决 不 确定 性 问题 的 数学 方法 ， 对 于 一 个 计算 机 专业 人 
士 ， 应 当 熟 悉 其 在 诸如 机 器 翻译 、 语 首 识 别 、 垃 圾 邮件 检测 等 常见 的 计 
算 机 领域 的 应 用 。 


本 书 实际 上 会 扩大 你 的 视野 ， 即 使 不 是 一 个 计算 机 专业 人 士 ， 你 也 
可 以 看 到 在 战争 环境 下 (第 二 次 世界 大 战 德军 坦 元 问题 ， 法 律 问题 上 
〈 旨 肿瘤 的 假设 验证 ) ， 体 育 博彩 领域 中 〔 标 能 队 和 加 入 队 NHL 比 赛 问 
题 ) 贝 叶 斯 方法 的 威力 。 怎 么 从 有 限 的 信息 判断 德军 装甲 部 队 的 规模 ? 
你 所 文 持 的 球 队 有 多 大 可 能 局 得 冠军 ? 在 《 龙 与 地 下 城 》 勇 士 中 ， 你 应 
当 对 游戏 角色 属性 的 最 大 值 有 怎样 的 预期 ? 甚至 在 普通 的 彩 弹 射击 游戏 
中 ， 拥 有 一 些 贝 叶 斯 思维 也 能 帮助 你 提高 游戏 水 平 。 


除 此 以 外 ， 本 书 在 共计 15 章 的 篇 幅 中 讨论 了 怎样 解决 十 几 个 现实 生 
活 中 的 实际 问题 。 在 这 些 问 题 的 解决 过 程 中 ， 作 者 还 潜移默化 地 帮助 读 
者 形成 了 建 模 决 策 的 方法 论 ， 建 模 误差 和 数值 误差 怎么 取舍 ， 怎 样 为 具 
体 问题 建立 数学 模型 ， ee es 
数 ) ， 再 一 步 一 步 地 优化 或 者 验证 模型 的 有 效 性 或 者 局 限 性 。 在 这 个 
Xk, 这 本 书 又 是 一 本 关于 数学 建 模 的 成 功 样本 。 























推荐 序 


很 多 人 把 世界 理解 为 基于 简单 的 、 确 定 的 ， 非 一 即 零 、 非 黑 即 白 
的 。 但 是 真实 的 世界 却 是 非常 复杂 的 ， 不 是 一 两 个 公式 可 以 完美 总 结 概 
括 的 。 就 像 我们 的 高 考 成 绩 和 我 们 的 学 习 水 平 ， 确 实 有 很 大 的 联系 ， 但 
是 最 后 又 会 受到 很 多 因素 的 影响 《〈 比 如 身体 状况 ， 是 否 休 息 好 了 ， 心 
情 ， 天 气 等 ) ， 进 而 使 得 我 们 的 最 终 成 绩 在 真实 水 平 上 下 有 很 大 的 波 
2 0 


这 个 时 候 ， 基 于 概率 和 统计 的 方法 给 了 我 们 很 多 的 帮助 。 很 多 时 
候 ， 我 们 不 能 给 出 每 一 个 人 、 每 一 件 事 的 确定 结果 。 但 是 当 我 们 观 至 大 
量 的 相同 事件 后 ， 我 们 惑 会 发 现 从 一 个 集体 的 意义 上 的 规律 是 存在 的 。 
而 单个 事件 每 次 可 能 得 到 不 同 的 结果 ， 这 些 结果 以 最 有 可 能 的 结果 为 中 
心 ， 服 从 一 定 的 概率 分 布 。 了 解 这 些 分 布 数据 ， 使 我 们 更 加 容易 理解 和 
预期 真实 世界 的 多 边 形 。 


回顾 在 进行 计算 机 目 然 语 言 处 理 过 程 中 走 过 的 路 ， 我 们 就 会 发 现 从 
研究 规则 到 研究 统计 的 转弯。 最 初 ， 研 究 人 员 都 认为 ， 语 言 是 基于 语法 
规则 。 这 个 也 很 容易 理解 ， 因 为 我 们 学 习 语言 的 时 候 ， 总 是 背 单词 ， 学 
语法 ， 然 后 掌握 语言 。 基 于 这 种 思维 ， 上 自然 语言 处 理 经 历 了 多 年 的 发 展 
后 ， 遇 到 了 巨大 的 挑 成。 那 束 是 即便 语法 规则 已 经 非常 复 洒 ， 仍 然 不 能 
处 理 大 多 数 的 语言 情况 。 从 结果 上 而 言 ， 目 然 语言 处 理 的 准确 度 远 低 于 
人 类 ， 不 具有 真正 的 使 用 价值 。 而 后 ， 有 一 批 学 者 开始 忆 尽 蹊 径 ， 基 于 
统计 的 思路 进行 探索 。 如 采 语 言 是 根据 人 类 沟通 需求 自然 发 生 ， 然 后 才 
有 总 结 出 来 的 语法 呢 ? 基于 这 种 思想 ， 研 究 人 员 放 弃 语 法 规则 ， 开 始 建 
并 基于 统计 的 模型 。 他 们 使 用 了 大 量 的 真实 文本 数据 ， 分 析 每 个 词 和 它 
前 后 的 词 出 现 的 统计 关系 ， 用 贝 叶 斯 方法 以 及 马尔 科 夫 过 程 ， 建 立 了 新 
的 目 然 语言 处 理 模型 。 这 一 次 ， 语 言 处 理 准 确 率 有 了 巨大 的 提升 ， 进 而 
达到 可 以 实用 的 要 求 。 今 天 ， 当 我 们 使 用 谷歌 翻译 、 苹 果 的 Siri 语 音 服 
务 的 时 候 ， 后 面 都 有 基于 统计 的 模型 的 功 苑 。 

还 有 很 多 的 真实 世界 的 事情 都 是 这 样 的 ， 比 如 路 上 的 交通 是 否 阻 


塞 、 银 行 排队 的 时 间 、 球 赛 的 比赛 结果 ， 都 是 以 一 种 概率 的 形式 出 现 
的 。 了 解 贝 叶 斯 方法 ， 也 是 了 解 真 实 世界 运行 的 一 种 有 效 途径 。 本 书 中 


















































也 列举 了 很 多 的 真实 实例 来 告诉 我 们 ， 贝 叶 斯 方法 和 真实 世界 的 联系 。 


另外 ， 在 我 们 正在 经 历 的 大 数据 时 代 ， 作 为 数据 分 析 方 法 的 一 个 巨 
大 分 文 ， 基 于 贝 叶 斯 的 机 器 学 习 算法 也 在 被 广泛 地 使 用 ， 并 产生 很 多 实 
际 意义 。 比 如 简单 贝 叶 斯 算法 、 贝 叶 斯 信念 网 络 等 ， 被 广泛 地 应 用 于 分 
类 和 预测 。 对 于 海量 数据 的 文本 分 类 问题 ， 例 如 ， 垃 圾 邮件 的 对 选 和 过 
滤 ， 基 于 贝 叶 斯 方法 的 算法 取得 了 非常 好 的 效果 ， 并 在 很 多 公司 中 正在 
使 用 ， 帮 助 我 们 远离 让 圾 邮件 的 骚扰 。 


更 加 难 能 可 贯 的 是 ， 本 书 作者 用 相对 简单 的 Python 语言 ， 对 所 涉及 
的 实例 进行 了 编程 。 对 于 有 一 定 计算 机 基础 的 人 来 说 ， 通 过 程序 ， 可 以 
0 
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本 书 用 简洁 的 语言 ， 大 量 的 实例 和 故事 ， 辅 之 以 简单 的 Python 语 
言 ， 把 原本 枯燥 的 概率 理论 讲 得 生动 且 容易 理解 。 在 学 习 到 理论 的 同 
时 ， 还 了 解 了 它 的 真实 意义 以 及 可 以 使 用 的 地 方 。 对 于 有 妃 求 的 工程 师 
和 感 兴趣 的 读者 而 言 ， 这 是 一 本 提升 自我 的 很 好 的 图 书 。 


酷 我 音乐 ”雷鸣 中 









































Q 雷鸣 ， 现 任 酷 我 音乐 董事 长 、CEO， 国 家 千 人 计划 特聘 专家 ， 百 度 
创始 七 剑客 之 一 ， 百 度 搜索 引擎 的 早期 设计 者 和 技术 负 贡 人 之 一 。 获 北 
乐 大 学 计算 机 科学 硕士 学 位 和 斯 坦 福 大 学 商学 院 MBA 学 位 ， 曾 任 北 京 
大 学 计算 机 系 学 生 会 主席 和 斯 坦 福 大 学 中 国学 生 学 者 联合 会 副 主席 。 
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学 习 之 过 
这 本 书 以 及 Think 系 列 其 他 书籍 的 一 个 前 提 是 : 只 要 懂得 编程 ， 你 
就 能 用 这 个 技能 去 学 习 其 他 的 内 容 。 


绝 大 多 数 贝 叶 斯 统计 的 书 使 用 数学 符 写 并 以 数学 概念 的 形式 表示 数 
学 思想 ， 比 如 微 积分 。 但 本 书 使 用 了 Python 代码 而 不 是 数学 ， 离 散 近似 
而 不 是 连续 数学 。 结 果 束 是 原本 需要 积分 的 地 方 变 成 了 求 和 ， 概 率 分 布 
的 大 多 数 操 作 变 成 了 简单 的 循环 。 


我 认为 这 样 的 表述 是 易于 理解 的 ， 至 少 对 于 有 编程 经 验 的 人 们 来 说 
古 这 样 的 。 当 作 建 模 选 择 时 也 非常 实用 ， 因 为 我 们 可 以 选取 最 合适 的 模 
型 而 不 用 担心 偏离 常规 分 析 太 多 。 


男 外 ， 这 也 提供 了 一 个 从 简化 模型 到 真实 问题 的 平滑 发 展 路 线 ， 第 
3 章 就 是 一 个 好 示例 。 它 由 一 个 关于 般 子 的 简单 例子 开始 ， 那 是 基本 概 
率 的 一 个 主题 ， 紧 接着 谈 到 了 一 个 我 从 Mosteller《50 个 挑战 的 统计 学 难 
题 》 (Fifty Challenging Problems in Probability) 一 书 中 借用 的 火车 头 问 
Re 是 德军 坦克 问题 ， 这 个 第 二 次 世界 大 战 中 成 功 的 贝 叶 斯 方法 应 
采 例 。 




















建 模 和 近似 


本 书 中 多 数 章节 的 元 感 都 是 由 真实 世界 里 的 问题 所 诉 发 的 ， 所 以 涉 
及 了 一 些 建 模 知识 ， 在 应 用 贝 叶 斯 方法 《或 者 其 他 的 分 析 方 法 ) 前 ， 我 
0 
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例如 ， 第 7 章 中 那个 预测 冰球 比赛 获胜 队伍 的 例子 ， 我 将 进 球 得 分 
建 模 为 一 个 泊 松 过 程 ， 这 预示 着 在 比赛 的 任何 时 段 进 球 机 会 都 是 相等 
的 ， 这 并 不 完全 符合 实际 情况 ， 但 就 大 多 数目 的 来 说 可 能 就 够 了 。 


第 12 章 中 ， 问 题 是 对 SAT 得 分 进行 解释 (SAT 是 用 于 全 美 大 学 的 入 
学 标准 测试 ) 。 我 以 一 个 假设 所 有 SAT 试 题 难度 相同 的 简化 模型 开始 ， 
但 其 实 SAT 的 试题 设计 中 既 包 括 了 相对 容易 ， 也 包括 了 相对 较 难 的 试 
题 。 随 后 提出 了 第 二 个 反映 这 一 设计 目的 的 模型 ， 结 果 显 出 两 个 模型 在 
最 终 效 果 上 没有 大 的 差别 。 

我 认为 在 解决 问题 的 过 程 中 ， 明 确 建 模 过 程 作为 其 中 一 部 分 是 重要 
0 
让 二 寺 让 


本 书 中 的 很 多 方法 都 基于 离散 分 布 ， 这 让 一 些 人 担心 数值 误 产 ,但 
对 于 真实 世界 的 问题 ， 数 值 误 送 几乎 从 来 都 小 于 建 模 误 兰 。 


再 者 ， 离 散 方 法 总 能 允许 较 好 的 建 模 选择 ， 我 宁愿 要 一 个 近似 的 民 
好 的 模型 也 不 要 一 个 精确 但 却 糟糕 的 模型 。 


从 另 一 个 角度 看 ， 连 续 方法 党 在 性 能 上 有 优势 ， 比 如 能 以 常数 时 间 
复杂 上 度 的 解法 蔡 换 掉 线 性 或 者 平方 时 间 复 杂 度 的 解法 。 


总 的 来 说 ， 我 推荐 这 些 步 又 的 一 个 通用 流程 如 下 。 


1. 当 研 究 问题 时 ， 以 一 个 简化 模型 开始 ， 并 以 清晰 、 好 理解 、 实 
证 无 误 的 代码 实现 它 。 注 意 力 集中 在 好 的 建 模 决 策 而 不 是 优化 上 。 


2. 一 旦 简化 模型 有 效 ， 再 找到 最 大 的 错误 来 源 。 这 可 能 需要 增加 
离散 近似 过 程 当中 值 的 数量 ， 或 者 增加 村 特 卡 洛 方法 中 的 友 代 次 数 ， 或 




















者 增加 模型 细 市 。 


3. 如 果 对 你 的 应 用 而 言 性 能 就 已 经 足够 了 ， 则 没 必 要 再 优化 。 但 
如 果 要 做 ， 有 两 个 方向 可 以 考虑 : 评估 你 的 代码 以 寻找 优化 空间 ， 例 
如 ， 如 果 你 缓存 了 前 面 的 计算 结果 ， 你 也 许 能 避免 重复 见 余 的 计算 ; 或 
者 可 以 去 发 现 找 到 计算 捷径 的 分 析 方 法 。 


这 一 流程 的 好 处 是 第 一 、 第 二 步 较 快 ， 所 以 你 能 在 投入 大 量 精力 前 
研究 多 个 可 丛 代 的 模型 。 


为 一 个 好 处 是 在 第 三 步 ， 你 可 以 从 一 个 大 体 正确 的 可 参考 实现 开始 
进行 回归 测试 。 也 束 是 ， 检 查 优化 后 的 代码 是 否 得 到 了 同样 的 结果 ， 人 至 
少 是 近似 的 结果 。 








代 公 指南 


本 书 中 的 很 多 例子 使 用 了 在 thinkbayes .py 当中 定义 的 类 和 函 
数 ， 可 以 从 http:Nthinkbayes.com/thinkbayes.py 下 载 这 个 模块 。 


本 书 大 多 数 章 节 包 括 了 可 以 从 http:Nthinkbayes.com 下 载 的 代码 ， 其 
中 有 一 些 依赖 代码 也 需要 下 载 ， 我 建议 你 将 这 些 文件 全 部 放 入 同一 个 目 
录 ， 这 样 代码 间 就 可 以 彼此 引用 而 无 需 变 更 Python 的 库 文 件 搜索 路 径 。 


你 可 以 在 需要 时 再 下 载 这 些 代 码 ， 或 者 一 次 性 从 
http://thinkbayes.com/thinkbayes_code.zip 下 载 ， 这 个 文件 也 包括 了 某 些 
程序 使 用 的 数据 文件 ， 当 解压 时 ， 将 创建 名 为 thinkbayes_code 的 包 
括 本 书 中 所有 代码 的 目录 。 


另外 ， 如 果 是 Git 用 户 ， 你 可 以 通过 fork 和 clone 来 一 次 性 获得 这 个 仓 
库 : https://github.com/AllenDowney/ThinkBayes 。 


我 用 到 的 模块 之 一 是 thinkplot.py ， 它 对 pyplot 中 一 些 函 数 进 
行 了 封装 ， 要 使 用 它 需 要 安装 好 matplot1lib ， 如 果 还 没有 ， 检 查 你 的 
软件 包 管 理 器 看 看 它 是 否 存在 ， 否 则 你 可 以 从 http:/Amatplotlib.org 得 到 
下 载 指南 。 


最 后 ， 本 书 中 一 些 程序 使 用 了 NumPy 和 SciPy， 可 以 从 
http://numpy.org 和 http://scipy.org 获得 。 











编码 风格 


有 经 验 的 Python 程 序 员 会 注意 到 本 书 中 的 代码 没有 符合 PEP 8 这 一 
最 通用 的 Python 编码 指南 ( http:/www.python.org/dev/peps/pep-0008/ 
名 


确切 地 说 ，PEP 8 使 用 带 有 词 间 下 划 线 的 小 写 函 数 名 like_this， 而 在 
本 书 中 和 实现 的 代码 里 ， 函 数 和 方法 名 以 大 写 开 头 并 使 用 间隔 式 的 大 小 
写 ，LikeThis 。 


没有 遵循 PEP 8 规范 的 原因 是 在 我 为 书 中 内 容 准 备 代 码 时 正在 谷歌 
做 访问 学 者 ， 所 以 就 遵循 了 谷歌 的 编码 规范 ， 它 只 在 少数 地 方 沿袭 了 
PEP 8， 一 用 上 了 谷歌 风格 我 就 喜欢 上 了 ， 现 在 要 改 太 及 烦 。 


同样 ， 在 主题 风格 上 ， 如 在 “Bayes’s theorem” 中 ，s 放 在 单 引号 后 ， 
在 某 些 风格 指南 中 倾向 这 样 使 用 而 在 其 他 指南 当中 不 是 。 我 没有 特别 的 
偏好 ， 但 不 得 不 选择 其 一 ， 所 以 就 是 你 们 现在 看 到 的 这 个 。 


最 后 一 个 排版 上 的 注脚 是 : 贯穿 全 书 ， 我 使 用 PMF 和 CDF 表 示 概 率 
密度 函数 或 累积 分 布 函数 这 些 数学 概念 ， 而 Pmf 和 Cdf 是 指 我 所 表述 的 
Python 对 象 。 








预备 条 件 


还 有 几 个 出 色 的 能 在 Python 中 进行 中叶 斯 统计 的 模块 ， 包 括 pymc 和 
OpenBUGS， 由 于 读者 需要 有 相当 多 的 背景 知识 才能 开始 使 用 这 些 模 
块 ， 因 此 本 书 中 我 没有 使 用 它们 ， 而 且 我 想 使 阅读 本 书 的 预备 条 件 最 
小 。 如 果 你 了 解 Python 和 一 点 点 概率 知识 ， 就 可 以 开始 阅读 本 书 。 


第 1 章 关 于 概率 论 和 贝 叶 斯 定理 ， 没 有 程序 代码 。 第 2 章 介 绍 了 
Pmf， 一 望 而 知 是 用 来 表示 概率 密度 图 数 〈PMF ) 的 Python 字典 对 象 。 
然后 第 3 章 我 介绍 了 Suite， 一 个 Pmf 对 象 ， 也 是 一 个 能 进行 贝 叶 斯 更 新 
的 框架 ， 因 而 万 事 具 备 了 。 


好 了 ， 随 后 的 章节 中 ， 我 使 用 了 高 斯 〈 正 态 ) 分 布 ， 二 次 和 泊 松 分 
布 ，beta 分 布 等 各 种 分 析 型 的 概率 分 布 ， 在 第 15 章 ， 我 介绍 了 不 太 第 见 
的 犹 利克 雷 分 布 ， 不 过 接着 也 进行 了 解释 。 如 果 你 不 熟悉 这 类 分 布 ， 可 
以 从 维基 百科 了 解 它 们 。 也 可 以 阅读 本 书 的 一 本 指南 《统计 思维 》 
(Think Stats) ， 或 其 他 入 门 级 的 统计 学 书籍 《不 过 ， 臣 人 大 多 数 类 似 
书籍 都 会 采取 对 实战 没有 太 大 帮助 的 数学 方法 来 阐述 ) 。 











书 中 使 用 的 惯例 写法 
本 书 中 使 用 了 下 面 的 印刷 惯例 。 
斜体 (Italic ) 
表示 新 术语 ，URL， 邮 件 地 址 ， 文 件 名 和 文件 扩展 名 。 
等 宽 (Constant width ) 


用 于 程序 代码 ， 也 包括 那些 表示 程序 代码 元 素 的 段落 ， 例 如 ， 变 量 
和 函数 名 ， 数 据 库 ， 数 据 类 型 ， 环 境 变 量 ， 声 明和 关键 字 。 


等 宽 粗 体 ( Constant width bold ) 
命令 或 者 其 他 由 用 户 输 入 的 文字 。 
等 宽 斜 体 〈 Constant width italic ) 


该 由 用 户 输入 值 答 换 或 者 由 上 下 文 决定 的 文本 。 








加 |， 
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这 个 图 标 表 示 这 是 一 个 提示 、 建 议 或 者 一 般 性 的 注 记 。 


这 个 图 标 表 示 这 是 提醒 或 者 警示 。 


我 们 的 联系 方式 
如 果 你 想 就 本 书 发 表 评 论 或 有 任何 疑问 ， 敬 请 联系 出 版 社 。 
美国 : 


O’Reilly Media Inc. 





1005 Gravenstein Highway North 

Sebastopol, CA 95472 

中 国 : 

北京 市 西城 区 西直门 南大 街 2 写成 饮 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 〈 北 京 ) 有 限 公司 


我 们 还 为 本 书 建 并 了 一 个 网 页 ， 其 中 包含 了 勘误 表 、 示 例 和 其 他 额 
外 的 信息 。 你 可 以 通过 地 址 访问 该 网 页 : httip:/oreil.ly/think-bayes 。 


关于 本 书 的 技术 性 问题 或 建议 ， 请 发 邮件 到 : 


bookquestions(Ooreilly.com 。 


欢迎 登录 我 们 的 网 站 〈 http:/www.oreilly.com ) ， 查 看 更 多 我 们 的 
书籍 、 课 程 、 会 议和 最 新 动态 等 信息 。 


我 们 的 其 他 联系 方式 如 下 。 


Facebook: http:/facebook.com/oreilly 











Twitter: http:/twitter.com/oreillymedia 


YouTube: http:/Wwww.youtube.com/oreillymedia 





页 献 者 列表 


如 采 你 发 现 本 书 有 需要 更 正 的 地 方 或 者 其 他 建议 ， 请 发 送 电子 邮件 
至 downey@allendowney.com。 一 旦 根据 你 的 反馈 进行 了 修正 ， 我 会 将 你 
加 入 页 献 者 列表 (除了 要 求 不 昔 名 的 情况 )。 


提供 包含 错 误 之 处 的 段落 部 分 ， 会 让 我 更 容易 找到 它们 。 只 提供 页 
和 节 数 也 可 以 ， 但 还 是 不 太 容易 找到 错误 之 处 。 这 里 先 致谢 ! 


首先 ， 我 要 感谢 大 卫 : 麦 凯 (David MacKay) 的 优秀 作品 《信息 理 

论 、 推 理 和 学 习 算法 》 (Information Theory, Inference, and Learning 
Algorithms) ， 我 从 这 本 书 里 第 一 次 理解 了 贝 叶 斯 方法 。 他 允许 我 
使 用 他 书 中 的 几 个 问题 来 作为 例子 。 

这 本 书 也 得 益 于 我 和 圣 乔 恩 : 马 哈 的 相互 配合 ，2012 的 秋天 我 在 欧 

林学 院 审核 了 他 的 贝 叶 斯 推理 课程 。 

在 参加 波士顿 Python 用 户 组 项 目 时 ， 我 在 夜班 时 间 完 成 了 本 书 的 部 
分 内 容 ， 上 所 以 我 也 要 感谢 他 们 以 及 他 们 所 提供 的 比萨 。 

乔纳森 :爱德华 效 提交 了 第 一 个 拼写 错误 。 

乔治 - 珀 金 斯 发 现 了 一 个 标记 错误 。 

奥 利 维尔 提出 了 几 个 有 益 的 建议 。 

尤 里 - 帕 西 奇 尼克 发 现 了 几 个 错误 。 

克里斯托弗 :网 霍 特 提交 了 一 个 更 正和 建议 的 清单 。 

罗伯特 : 马 库 斯 发 现 了 一 个 错误 放置 的 小 写 i。 

麦 元 斯 : 黑 尔 珀 林 建 议 在 第 1 章 提 供 一 个 淤 清 半 市 。 

> 出 “从 碗 中 有 放 回 的 取出 饼干 ”并 不 是 一 个 真实 的 


叉 景 。 

汤姆 : 波 拉 德 和 保罗 A. 吉安 纳 罗斯 指出 ， 在 火车 头 案例 中 的 某 些 数 
量 有 版 本 问题 。 

兰 姆 : 林 布 发 现 了 一 个 拼写 错误 ， 还 建议 了 洪 清 章节 。 

2013 春 天 在 我 的 《 贝 叶 斯 统计 计算 》 课 程 上 ， 学 生 们 提出 了 许多 有 
益 的 修正 和 建议 ， 他 们 是 : 凯 : 奥 斯 汀 ， 克 莱 尔 : 巴 尼斯 ， 卡 里 :本 德 
尔 ， 瑞 秋 : 铂 伊 ， 凯 特 : 门 多 萨 ， 阿 琼 - 伊 耶 ， 本 : 克 罗 普 ， 内 森 : 林 
之 ， 凯 尔 :麦克 康 诺 效 ， 亚 历 克 : 雷 德 福 ， 布 伦 丹 :里 特 ， 埃 文 : 辛 普 


森 。 
格雷 戈 - 马 拉 和 马 特 : 艾 所 帮 我 澄 消 了 “正确 的 价格 ”这 个 问题 的 一 些 


讨论 。 























。 马 库 斯 : 奥 格 伦 指 出 火车 头 问 题 的 原 有 声明 是 有 些 合 糊 的。 
。 Media 的 页 斯 敏和 和 丹 在 校对 书 的 过 程 中 也 发 现 了 许多 可 改 
进 的 地 方 。 


第 1 章 ” 贝 叶 斯 定理 


1.1 条 件 概率 


所 有 上 贝 叶 斯 统计 的 方法 都 基于 贝 叶 斯 定理 ， 如 果 有 条 件 概率 的 学 习 
基础 ， 意 识 到 这 一 点 很 自然。 因此 我 们 会 从 概率 、 条 件 概 率 开 始 ， 然 后 
到 贝 叶 斯 定理 ， 最 后 讨论 贝 叶 斯 统计 的 内 容 。 


概率 表示 为 0 和 1 之 间 的 数字 《包括 0 和 1) ， 含 义 是 茶 一 事件 或 者 预 
测 行为 的 可 信 程 度 ，1 值 表示 “事件 为 真 ” 的 情形 肯定 发 生 ， 或 表述 为 预 
测 成 真 ， 而 0 值 则 表示 “事件 为 真 ? 这 一 情形 为 假 。 


其 他 中 间 值 表示 确定 性 的 程度 。 例 如 ，0.5 通 党 也 会 写成 50%， 意 味 
着 一 个 预测 结果 发 生 和 不 发 生 有 同等 可 能 性 。 例 如 ， 在 一 个 掷 硬币 事件 
中 ， 人 像 面 (正面 ) 朝 上 的 概率 就 非常 接近 50%。 


条 件 概率 是 带 有 某 些 (前 提 条 件 ) 背景 约束 下 的 概率 问题 。 例 如 ， 
我 想 了 解 一 下 明年 自己 心脏 病 发 作 的 可 能 性 。 根 据 疾病 控制 中 心 的 数 
据 ， 每 年 大 约 有 78.5 万 名 美国 人 截 患 心 脏 病 〈 
http:/www.cdc.gov//heartdisease/fact.html ) 。 


美国 约 有 3.11 亿 人 ， 假 设 随机 挑选 一 个 美国 人 ， 那 么 其 在 明年 心脏 
病 发 作 的 概率 大 约 是 0.3%。 


但 就 具体 个 例 而 言 , “我 "可 不 是 那个 被 随意 选中 的 美国 人 。 流 行 病 
学 家 们 已 经 明确 了 多 种 影响 心脏 病 发 作 的 风险 因素 ， 根 据 这 些 因素 我 的 
风险 则 有 可 能 高 于 或 低 于 平均 值 。 


本 人 男 ，45 岁 ， 有 临界 高 胆 固 醒 ,这些 因 素 增加 了 我 发 病 的 可 能 
性 ;然而 ， 血 压低、 不 抽烟 这 些 因 素 则 降低 了 可 能 性 。 


把 上 面 这 些 条 件 输入 在 线 计算 器 
http:/hp2010.nhlbihin.net/atpiii/calculator.asp ， 我 发 现 自己 明年 心脏 病 发 
作 的 风险 约 为 0.2%， 低 于 全 国平 均 水 平 。 这 个 值 就 是 一 个 条 件 概率 ， 
为 它 是 基于 一 系列 前 提 因 素 的 ， 这 些 因素 构成 了 我 患 心脏 病 的 “条 件 ”。 









































通 第 条 件 概率 的 记号 是 p(A |B )， 表 示 在 给 定 B 条 件 下 A 事件 发 生 的 
概率 。 在 这 个 例子 中 ，A 表示 我 明年 从 患 心脏 病 带 的 概率 ， 而 B 表示 了 
上 面 所 罗列 的 条 件 。 





1.2 ”联合 概率 


联合 概率 : 是 指 两 个 事件 同时 发 生 的 概率 。p (A 和 B ) 是 A 和 B 事 
件 的 发 生 都 为 真 的 概率 。 


如 未 你 已 经 理解 了 投 货 例 于 和 它 的 育 景 ， 我 们 开始 学 习 下 面 的 公 


二 











p(A 和 B )= p(A)p(B ) 提醒 : 表达 式 并 非 总 是 成 立 。 


例如 ， 如 果 我 投掷 两 个 硬币 ，A 表示 第 一 枚 硬币 正面 朝 上 ，B 表示 
第 二 枚 硬币 正面 朝 上 ， 那 么 p(A )= p(B ) = 0.5， 同 样 的 p(A 和 B ) = p(A 
)p(B ) = 0.25。 


但 是 上 面 公 式 仅 在 A 和 B 都 是 独立 事件 的 情况 下 才 成 立 。 即 : 已 知 
A 事件 的 结果 并 不 影响 或 改变 B 事件 发 生 的 概率 。 或 更 正式 表示 为 ，p(B 
[A )= p(B )。 

再 考虑 男 一 个 事件 之 间 并 不 独立 的 例子 。 假 设 A 表示 今天 下 雨 的 事 
件 ，B 表示 明天 会 下 雨 的 事件 。 如 果 我 已 经 知道 今天 下 雨 ， 则 明天 还 有 
可 能 下 雨 (译注 : 与 仅仅 单独 考虑 某 一 天 会 下 十 的 概率 相 比 较 ) ， 所 以 
p(B A)>p(B )。 

通常 意义 下 ， 联 合 概率 表述 为 

p(A and B ) = p(A ) p(B |A) 


对 于 任何 A 、B 事件 ， 如 果 任 意 一 天 下 雨 的 机 会 是 0.5， 连 续 两 天 就 
不 会 是 0.25， 而 是 可 能 更 高 一 点 。 























1.3 有 曲 奇 饼 问题 


我 们 即将 开始 讨论 到 贝 叶 斯 定理 ， 但 我 还 想 通 过 一 个 被 称 为 “ 曲 奇 
饼 问题 ”的 例子 来 介绍 它 。 假 设 有 两 碗 曲 奇 饼 ， 碗 1 包含 30 个 香 香 曲 奇 饼 
和 10 个 巧克力 曲 奇 饼 ， 碗 2 有 上 述 两 种 饼干 各 20 个 。 


现在 设想 你 在 不 看 的 情况 下 随机 地 挑 一 个 碗 拿 一 块 饼 ， 得 到 了 一 块 
香草 曲 奇 饼 。 我 们 的 问题 是 : 从 硕 1 取 到 香草 曲 奇 饼 的 概率 是 多 少 ? 


这 就 是 一 个 条 件 概率 问题 ， 我 们 希望 得 到 概率 p( 碗 1| 香 草 )， 但 怎样 
交行 计算 并 非 吕 而 易 见 。 问 题 如 果 换 成 在 太 1 中 香 间 出 厅 便 的 概率 则 人 
得 多 。 








p( 香 草 | 碗 1)= 3/4 


不 巧 的 是 ，p(A 1B ) 并 不 和 p(B |A ) 相 同 ， 但 有 方法 从 一 个 计算 出 男 一 
个 : 贝 叶 斯 定理 。 


1.4 贝 叶 斯 定理 


现在 ， 我 们 准备 好 进行 贝 叶 斯 定理 推导 需要 的 所 有 条 件 了 。 首 先 ， 
我 们 注意 到 ， 联 合 概 率 是 乘积 可 交换 (乘法 交换 律 ) 的 ， 即 : 


p(A and B ) = p(B and A) 

对 于 任何 A ，B 表示 的 事件 都 成 立 。 

然后 ， 我 们 写 出 一 个 联合 概率 的 表达 式 : 
p(A and B ) = p(A )p(B AI) 


0 2 
2 入 


交换 它们 的 位 置 : 
p(B and A ) = p(B )p(A |B) 

把 这 些 表达 式 连 接 起 来 ， 我 们 得 到 下 面 的 表达 式 : 
p(B )p(A |B )= p(A )p(B AI) 


这 意味 着 我 们 有 两 种 方式 计算 联合 概率 ， 已 知 p(A )， 乘 以 p(B |A ); 
或 者 从 另 一 方向 ， 已 知 pP(B )， 乘 以 p(A |B )。 两 种 方法 是 相同 的 。 


最 后 ， 将 上 式 除 以 p(B )， 得 到 : 





p(-A)p(BIA) 
p(B) 





p(:4|B) = 


这 正 是 贝 叶 斯 定理 ! 看 起 来 不 起 眼 ， 不 过 它 会 显示 出 令 人 吃惊 的 强 
大 之 处 。 


例如 ， 我 们 可 以 用 它 来 解决 曲 奇 饼 问 题 。 


假设 B 1 表示 曲 奇 饼 属于 碗 1 的 概率 ，Y 表 示 曲 奇 饼 是 香草 曲 奇 饼 的 
概率 。 
带 入 贝 叶 斯 定理 我 们 得 到 : 


p(BI)P(V|B1) 
p(V) 





p(BilV) 
等 式 左边 就 是 我 们 希望 得 到 的 ， 一 块 香 草 曲 奇 饼 来 自 碗 1 的 概率 。 
等 式 的 右边 表示 : 


p(B1): 这 是 我 们 忽略 得 到 曲 奇 饼 这 个 条 件 时 《和 零 条 件 下 ) 选中 兢 1 
的 概率 。 因 为 选择 碗 的 过 程 是 随机 的 ， 我 们 可 以 假设 p(B 1 )=1/2。 
p(V1B 1): 这 是 从 碗 1 得 到 一 个 香草 曲 奇 饼 的 概率 三 3/4。 

p(V): 从 任意 碗 里 得 到 一 个 香草 曲 奇 饼 的 概率 。 因 为 考虑 到 选择 碗 
的 机 会 均等 ， 而 且 每 个 硫 的 曲 奇 饼 数 量 都 是 40， 得 到 曲 奇 饼 的 机 会 
是 相同 的 。 两 个 碗 中 香草 和 巧克力 曲 奇 饼 总 数 各 是 50 和 30， 因 此 
p(V )=5/8。 


把 它们 放 在 一 起 ， 我 们 得 到 ; 








| (1/2)(3/4) 
p(BIV) = ~ 


9/5 





结果 是 3/5。 所 以 ，“ 得 到 一 块 香草 曲 奇 饼 ” 是 支持 于 假设 “来 自 碗 
1 的 证 据 ， 因 为 香草 曲 奇 饼 来 自 碗 1 的 可 能 性 更 大 。 

这 个 例子 演示 了 一 个 应 用 贝 叶 斯 定理 的 案例 : 它 提 供 了 一 个 从 p(B 
IA ) 得 到 p(A |B ) 的 策略 。 


这 种 策略 在 解决 类 似 “ 曲 奇 饼 问题 ”的 情况 下 是 有 用 的 ， 即 从 贝 叶 斯 
等 式 的 右边 计算 要 比 左边 容 易 的 情况 下 。 


1.5 ”历时 诠释 


还 有 另外 一 种 理解 贝 叶 斯 定理 的 思路 : 它 给 我 们 提供 的 是 一 种 根据 
数据 集 D 的 内 容 变化 更 新 假设 概率 五 的 方法 。 


这 种 对 贝 叶 斯 定理 的 理解 被 称 为 "历时 诠释 ”。 


“历时 ?意味 着 菜 些 事情 随 痢 时 间 而 发 生 ， 在 本 例 ， 即 是 假设 的 概率 
随 看 看 到 的 新 数据 而 变化 。 


在 考虑 H 和 D 的 情况 下 ， 贝 叶 斯 定理 的 表达 式 可 以 改写 成 











p({H)p(DIH) 
p(D) 





pl(HID) 三 


在 这 种 解释 里 ， 每 项 意义 如 下 : 


p( 吾 ) 称 为 先 验 概率 ， 即 在 得 到 新 数据 前 某 一 假设 的 概率 。 
0 
A 既 鞭 。 

p(D |H ) 是 该 假设 下 得 到 这 一 数据 的 概率 ， 称 为 似 然 度 。 

p(D ) 是 在 任何 假设 下 得 到 这 一 数据 的 概率 ， 称 为 标准 化 常量 。 


有 些 情况 ， 我 们 可 以 基于 现 有 背景 信息 进行 计算 。 比 如 在 曲 奇 饼 问 
题 中 ， 我 们 就 将 随机 选中 碗 1 或 碗 2 的 概率 假设 为 均等 。 


在 其 他 情况 下 ， 先 验 概率 是 偏 主观 性 的 ， 对 茶 一 先 验 概率 ， 理 性 派 
的 人 可 能 会 有 不 同意 见 ， 或 许 由 于 他 们 使 用 不 同 的 背景 信息 做 出 判断 ， 
或 者 因为 他 们 针对 相同 的 前 提 条 件 做 出 了 不 同 的 解读 。 


似 然 度 是 贝 叶 斯 计算 中 最 简单 的 部 分 ， 在 曲 奇 饼 问 题 中 曲 奇 饼 来 目 
来 目 哪个 克 ， 则 我 们 就 计算 那个 碗 中 香草 曲 奇 饼 的 概率 。 


标准 化 常量 则 有 些 棘手 ， 筷 被 定义 为 在 所 有 的 假设 条 件 下 这 一 数据 
出 现 的 概率 ， 但 因为 考 碟 的 正 是 最 一 般 的 情况 ， 所 以 不 容易 确定 这 个 各 
量 在 具体 应 用 场合 的 现实 意义 。 








最 常见 的 ， 我 们 可 以 指定 一 组 如 下 的 假设 集 来 简化 。 
互 斥 的 : 集合 中 ， 至 多 一 个 假设 为 真 。 
完备 的 : 集合 中 ， 至 少 一 个 假设 必 为 真 ， 且 集合 包含 了 所 有 的 假 





我 使 用 suite 这 个 词 来 表示 有 具备 上 述 属性 的 假设 集 。 


在 曲 奇 饼 问题 中 ， 仅 有 两 个 假设 : 饼干 来 自 碗 1 或 者 碗 2， 它 们 就 是 
互 斥 的 和 完备 的 。 


在 本 例 中 ， 我 们 可 以 用 全 概率 公式 计算 p(D )， 即 如 果 发 生菜 一 事件 
有 互 不 容 的 两 个 可 能 性 ， 可 以 像 下 面 这 样 累 加 概率 : 


p(D )= p(B 1 )p(D IB1)+Pp(B, )p(D |B,) 
代入 饼干 问题 中 的 实际 值 ， 得 到 : 
p(D ) = (1/2)(3/4) + (1/2)(1/2) = 5/8 
我 们 早 前 心算 得 到 的 结果 也 是 一 样 的 。 








1.6 M&M 豆 问 题 


MS&M 豆 是 有 各 种 颜色 的 糖果 巧克力 豆 。 制 造 M&M 豆 的 Mars 公 司 会 
不 时 变更 不 同 闫 色 巧 克 力 豆 之 间 的 混合 比例 。 


1995 年 ， 他 们 推出 了 蓝 色 的 M&M 豆 。 在 此 前 一 袋 普通 的 M&M 豆 
中 ， 颜 色 的 搭配 为 : 30% 褐 色 ，20% 黄 色 ，20% 红 色 ，10% 绿 色 ，10% 检 
色 ，10% 黄 褐色 。 这 之 后 变 成 了 : 24% 葛 色 ，20% 绿 色 ，16% 柳 色 ，14% 
黄色 ，13% 红 色 ，13% 褐 色 。 


假设 我 的 一 个 朋友 有 两 袋 M&M 豆 ， 他 告诉 我 一 袋 是 1994 年 ， 一 袋 
是 1996 年 


但 他 没 告诉 我 具体 哪个 袋子 是 哪 一 年 的 ， 他 从 每 个 袋子 里 各 取 了 一 
个 M&M 豆 给 我 。 一 个 是 黄色 ， 一 个 是 绿色 的 。 那 么 黄色 豆 来 自 1994 年 
的 袋子 的 概率 是 多 少 ? 


这 个 问题 类 似 于 曲 奇 饼 问 题 ， 只 是 变化 了 我 抽取 样品 的 方式 〈 砚 
还 是 袋 ) 。 这 个 问题 也 给 了 我 一 个 机 会 演示 纸 面 方法 : 也 束 在 仅仅 在 纸 
上 画 画 就 可 以 解决 类 似 这 样 的 问题 〈 译 注 ， 作 者 为 后 续 章 节 的 计算 型 方 
法 铺垫 ) 。 在 下 一 章 中 ， 我 们 将 以 计算 方法 解 这 些 问 题 。 


一 步 是 枚 举 所 有 假设 。 取 出 黄色 M&M 豆 的 袋子 称 为 袋 1， 另 一 
个 和 为 2， 所 以 假设 是 : 


。A: 袋 1 是 1994 年 的 ， 袋 2 是 1996 年 的 。 
e。 也: 袋 1 是 1996 年 的 ， 袋 2 是 1994 年 的 。 


接着 我 们 设计 一 个 表格 ， 每 行 表示 每 个 假设 ， 每 列表 示 贝 叶 斯 定理 
中 的 每 一 项 : 


先 验 概率 p(H ) 似 然 度 p(D |H ) p(H) PD IH) 后 验 概率 p(H |D ) 








CHC 0 
OT 








一 列表 示 先 验 。 基 于 问题 的 声明 ， 选 择 p(A )=p(B )= 1/2 是 合理 


的 。 


第 二 列表 示 似 然 度 ， 表 明了 问题 的 背景 信息 。 举 例 来 说 ， 如 果 A 为 
真 ， 黄 色 M&M 是 来 自 1994 年 的 袋 概率 20%， 而 绿色 来 自 1996 包 的 概率 
为 209%。 因 为 选择 是 独立 的 ， 我 们 将 其 相 乘 以 得 到 联合 概率 。 


第 三 列 由 前 两 列 得 到 。 此 列 的 总 和 270 是 归 一 化 常数 译注 :参考 
全 概率 公式 ) 。 为 了 得 到 最 后 一 列 的 后 验 概率 ， 我 们 将 第 三 列 的 值 归 一 
化 后 得 到 第 四 列 的 值 。 


就 是 这 样 。 简 单 吧 ? 

还 有 ， 你 可 能 会 被 一 个 细节 所 困扰 。 我 将 p(D IH ) 写 成 了 百分数 的 
形式 而 不 是 概率 形式 ， 这 意味 着 它 没有 除 以 因子 10000。 但 是 当 我 们 将 
其 除 以 归 一 化 常数 时 就 抵消 了 ， 因 此 这 不 影响 结 


当 设 定 的 假设 是 互 扩 和 穷 举 的 ， 你 可 以 将 似 然 度 乘 以 任何 因 了 于 ， 如 
果 方 便 ， 将 同一 个 因子 应 用 到 整 列 上 。 








1.7 Monty Hall 难 题 


蒙 带 大 厅 (Monty Hall problem ) 难题 可 能 是 历史 上 最 有 争议 的 概 
率 问 题 。 问 题 看 似 简单 ， 但 正确 答案 如 此 有 悖 第 理 以 致 很 多 人 不 能 接 
受 ， 很 多 聪明 人 都 难堪 于 自己 搞 错 了 反而 据 理 力争 ， 而 且 是 公开 的 。 


蒙 带 大 厅 是 游戏 节日 “来 做 个 交易 ”(Let’*s Make a Deal) 的 主场 。 
蒙 带 大 厅 难 题 也 是 这 一 节目 的 和 常规 游戏 之 一 。 如 果 你 参加 节日 ， 规 则 是 
这 样 的 : 


。 蒙 蒂 癌 你 示意 三 个 关闭 的 大 门 ， 然 后 告诉 你 每 个 门 后 都 有 一 个 奖 
品 : 一 个 奖品 是 一 辆 车 ， 为 外 两 个 是 像 花 生效 和 假 指 甲 这 样 不 值钱 
的 奖品 。 奖 品 随机 配置 。 

游戏 的 目的 是 要 猜 哪 个 门 后 有 车 。 如 果 你 猜 对 了 就 可 以 拿 走 汽车 。 
你 先 挑选 一 局 门 ， 我 们 姑且 称 之 为 门 A， 其 他 两 个 称 为 门 B 和 门 C。 
在 打开 你 选中 的 门 前 ， 为 了 增加 悬念 ， 聚 带 会 和 完 打 开 B 或 C 中 一 个 
没有 车 的 门 来 增加 蕉 仿 〔 如 果 汽 车 实际 上 束 是 在 A 门 背 后 ， 那 么 去 
带 打 开门 B 或 门 C 都 是 安全 的 ， 所 以 他 可 以 随意 选择 一 个 ) 。 
SR 
1s 


问题 是 ， 你 应 该 “坚持 ”还 是 “ 换 *”? 有 没有 区 别 ? 


大 多 数 人 都 有 强烈 的 直觉 ， 认 为 这 没有 区 别 。 剩 下 两 个 门 没有 打 
开 ， 车 在 门 A 背后 的 机 会 是 50%。 


但 是 ， 这 是 错 的 。 事 实 上 ， 如 果 你 坚持 选择 门 A， 中 奖 概 紊 只 有 
1/3; 而 如 果 换 到 为 外 一 个 门 ， 你 的 机 会 将 是 2/3。 

运用 贝 叶 斯 定理 ， 我 们 可 以 将 这 个 问题 分 解 成 儿 个 简单 部 分 ， 也 许 
这 样 可 以 说 服 目 身 ,“ 正 确 ” 的 答案 实际 上 的 的 确 确 是 对 的 。 

首先 ， 我 们 应 该 对 数据 进行 仔细 描述 。 在 本 例 中 为 D 包括 两 个 部 
分 : 蒙 带 打开 了 门 B， 而 且 没 有 车 在 后 面 。 

接 下 来 ， 我 们 定义 了 三 个 假设 : A，B 和 C， 表 示 假 设 车 在 门 A， 门 
B， 或 门 C 后 面 。 同 样 ， 采 用 表格 法 : 

















先 验 概率 p(H ) 似 然 度 p(D |H ) p(H) Pp(D IH) 后 验 概率 p(H |D ) 





Ba hh 


填写 先 验 很 容易 ， 因 为 我 们 被告 知 奖品 是 随机 配置 的 ， 这 表明 该 车 








可 能 在 任何 门 后 面 。 


定义 似 然 度 需要 一 些 思 考 ， 在 充分 合理 的 考虑 后 ， 我 们 确信 正确 的 
似 然 度 如 下 : 


。 考虑 假设 A 如果 汽车 实际 上 是 在 门 A 后 ， 蒙 带 可 以 安全 地 打开 门 B 
或 门 C。 所 以 他 选择 门 B 的 概率 为 12。 因 为 车 实际 上 是 在 门 A 后 ， 
也 就 是 说 车 不 在 门 B 后 的 概率 是 1。 

。 考虑 假设 B: 如 有 果 汽 车 实际 上 有 是 在 门 B 后 ， 蒙 蒂 不 得 不 打开 门 C， 这 





。 最 后 考虑 假设 C: 如 果 车 是 在 门 C 后 ， 蒙 蒂 打 开门 B 的 概率 为 1， 发 
现 车 不 在 那儿 的 概率 为 1〈 译 注 : 因为 在 选手 已 经 选 了 A 门 这 个 情 
况 下 ， 可 供 蒙 蒂 增加 悬念 开门 的 选择 只 有 B 和 C， 而 假设 C 有 车 ， 蒙 
蒂 肯 定 不 会 选 ， 因 此 蒙 蒂 会 打开 B 门 的 概率 为 1， 也 就 是 在 这 个 假设 
下 ， 数 据 D 的 似 然 度 为 1) 。 
现在 我 们 已 经 完成 有 难度 的 部 分 了 ， 剩 下 无 非 就 是 算术 。 第 三 列 的 

pe 
we 皇 。 


该 问题 有 许多 变形 。 贝 叶 斯 方法 的 优势 之 一 就 是 可 以 推广 到 这 些 变 
形 问 题 的 处 理 上 。 


例如 ， 设 想 蒙 蒂 总 是 尽 可 能 选择 门 B， 且 只 有 在 迫不得已 的 时 候 才 











选 门 C〈 比 如 车 在 门 B 后 ) 。 在 这 种 情况 下 ， 修 正 后 的 表 如 下 : 
先 验 概率 p(H ) 似 然 度 p(D |H ) p(H) PD IH) 后 验 概率 p(H |D ) 












wi 


假设 C 1/3 1 1/3 1/2 





唯一 的 变化 是 p(D |A )。 如 果 车 在 门 A 后 ， 蒙 带 可 以 选择 打开 B 或 
C。 但 在 这 个 变形 问题 里 面 ， 他 总 是 选择 B， 因 此 p(D IA) = 1。 


因此 ， 对 A 和 C， 似 然 度 是 相同 的 ， 后 验 也 是 相同 的 : p(A 1D)=p(C 
ID ) = 12， 在 这 种 情况 下 ， 蒙 特 选择 B 门 显示 不 了 车 位 置 的 任何 信息 ， 
所 以 无 论 选 手 选择 坚持 不 变 还 是 改变 都 无 关 紧 要 。 


反 过 来 的 情况 下 ， 如 果 蒙 带 打 开门 C， 我 们 就 知道 p0BID )= 1( 译 
注 : 因为 蒙 带 总 是 优先 选择 门 B， 而 门 D 是 他 打开 了 门 C， 因 此 在 假设 车 
在 门 B 后 的 前 提 下 ， 他 必然 会 打开 门 C， 概 率 为 1， 即 p(BID )=1) 。 


本 章 中 我 介绍 了 蒙 蒂 问题 ， 因 为 我 觉得 这 里 有 它 的 趣味 性 ， 也 因为 
贝 叶 斯 定理 使 问题 的 复杂 性 更 易 控制 。 但 这 并 不 算是 一 个 典型 的 贝 叶 斯 
定理 应 用 ， 所 以 如 果 你 党 得 它 令 人 困惑 ， 没 什么 好 担心 的 ! 























1.8 讨论 


对 于 涉及 条 件 概率 的 很 多 问题 ， 贝 叶 斯 定理 提供 了 一 个 分 而 治之 的 
打上 略 。 如 果 p(A |B ) 难 以 计算 ， 或 难以 用 实验 衡量 ， 可 以 检查 计算 贝 叶 斯 
定理 中 的 其 他 项 是 否 更 容易 ， 如 p(B |A )，p(A ) 和 p(B )。 


如 果 蒙 带 大 厅 问 题 让 你 觉得 有 趣 ， 我 在 一 篇 文章 “All your Bayes are 
belong to us” 中 收集 了 很 多 类 似 问 题 ， 你 可 以 去 单 击 链 接 进行 阅读 
http://allendowney.blogspot.com/2011/10/all-your-bayes-are-belong-to- 
us.html 。 





生 A mm < a 外 全 
第 2 章 ”统计 计算 
2.1 分 布 
在 统计 上 ， 分 布 是 一 组 值 及 其 对 应 的 概率 。 


例如 ， 如 果 滚 动 一 个 六 面 般 子 ， 可 能 的 值 是 数字 1 至 6， 与 每 个 值 关 
联 的 概率 是 1/6。 


再 举 一 个 例子 ， 你 应 该 有 兴趣 了 解 在 日 党 的 英语 使 用 中 每 个 单词 出 
现 的 次 数 。 你 可 以 建立 一 个 包含 每 个 字 及 它 出 现 的 次 数 的 分 布 。 

为 了 表示 Python 中 的 分 布 ， 可 以 使 用 一 个 字典 映射 某 个 值 和 它 的 概 
率 。 我 编写 了 一 个 名 为 Pmf 的 类 ， 利 用 Python 字典 实现 了 上 述 功能 ， 而 
且 提 供 了 一 些 有 用 的 方法 。 为 了 对 应 概率 质量 函数 这 种 分 布 的 数学 表 
示 法 ， 我 将 其 命名 为 Pmf。 

Pmf 的 定义 在 一 个 我 为 本 书 完成 的 Python 模块 thinkbayes.py 中。 
可 以 从 http://thinkbayes.com/thinkbayes.py 下 载 。 欲 了 解 更 多 信息 参见 前 
言 的 “代码 指南 ”。 


要 使 用 Pmf ， 可 如 下 导入 : 


from thinkbayes.py import Pmf 


下 面 的 代码 建立 一 个 Pmf 来 表示 六 面 骨 子 的 结果 分 布 : 








pmf = Pmf() 
for x in [1,2,3,4,5,6|]: 
pmf.Set(x, 1/6.08) 





Pmf 创建 一 个 空 的 没有 赋值 的 pmf。Set 方法 设置 每 个 值 的 概率 为 
1/6。 


这 里 是 男 一 个 例子 ， 计 算 每 个 单词 在 一 个 词 序 列 中 出 现 的 次 数 : 


pmf = Pmf() 
for word in word list: 
pmf.Incr(word, 1) 





Incr 为 每 个 单词 的 相应 “概率 ”加 1。 如 果 一 个 词 还 没有 出 现在 Pmf 
中 ， 那 么 就 将 这 个 词 添 加 进去 。 

我 把 “概率 ”加 上 引号 是 因为 在 这 个 例子 中 概率 还 没有 归 一 化 ， 也 就 
是 说 它们 的 累加 和 不 是 1， 因 此 不 是 真正 的 概率 。 但 在 本 例 中 单词 计数 
与 概率 成 正比 。 所 以 当 完 成 了 所 有 的 计数 ， 就 可 以 通过 除 以 计数 的 总 值 
来 计算 得 到 概率 。 


Pmf 提供 了 一 种 Normalize 方法 来 实现 上 述 功 能 : 


pmf.Normalize() 


Pe 你 可 以 像 下 面 这 样 得 到 任何 一 个 值 相关 联 的 
既 骏 ; 


print pmf.Prob('the') 


这 会 打印 输出 单词 “the”" 在 词 序列 中 出 现 的 频率 。 


Pmf 使 用 Python 字典 来 存储 值 及 其 概率 ， 所 以 Pmf 中 的 值 可 以 是 任意 
可 被 哈 希 的 类 型 。 概 率 可 以 是 任意 数值 类 型 ， 但 通常 是 浮上 扣 数 (float 
类 型 ) 。 














2.2 ” 曲 奇 饼 问 题 


在 贝 叶 斯 定理 的 语 境 下 ， 可 以 很 自然 地 使 用 一 个 Pmf 映 射 每 个 假设 
和 对 应 的 概率 。 


在 曲 奇 饼 问题 里 面 ， 该 假设 是 Bl; 和 B,。 在 Python 中 可 以 使 用 字符 
串 来 表示 它们 : 





pmf = Pmf() 


pmf.Set('Bowl1', 968.5) 
pmf.Set('Bowl2', 968.5) 





这 一 分 布 包含 了 对 每 个 假设 的 先 验 概率 ， 称 为 先 验 分 布 。 


要 更 新 基于 新 数据 〈 拿 到 一 块 香草 曲 奇 饼 ) 后 的 分 布 ， 我 们 将 先 验 
分 别 乘 以 对 应 的 似 然 度 。 


从 碗 1 拿 到 香草 曲 奇 饼 的 可 能 性 是 2/4， 碗 2 的 可 能 性 是 1/2。 


pmf.Mult('Bowl1', 86.75) 
pmf.Mult('Bowl2', 960.5) 





如 你 所 愿 ，Mult 将 给 定 假设 的 概率 乘 以 已 知 的 似 然 度 。 
更 新 后 的 分 布 还 没有 归 一 化 ， 但 由 于 这 些 假设 互 斥 且 构 成 了 完全 集 





合 〈 意 味 着 完全 包含 了 所 有 可 能 假设 ) ， 我 们 可 以 进行 重新 归 一 化 如 
下 : 


pmf.Normalize() 





本 其 结果 是 一 个 包含 每 个 假设 的 后 验 概率 分 布 ， 这 束 古 所 说 的 后 验 分 


最 后 ， 我 们 可 以 得 到 假设 碗 1 的 后 验 概率 如 下 : 


print pmf.Prob('Bowl 1') 





答案 是 0.6。 你 可 以 从 http:Nthinkbayes.com/cookie.py 下 载 这 个 例 
子 。 欲 了 解 更 多 信息 ， 请 参见 前 言 的 “代码 指南 ”。 


2.3” 贝 叶 斯 框架 


在 继续 讨论 其 他 的 问题 前 ， 我 想 在 上 一 节 的 基础 上 重 写 代 码 以 使 其 
更 通用 。 首 先 我 将 定义 一 个 类 来 封 六 与 此 相关 的 代码 : 





class Cookie(Pmf): 


def _init (self,hypos): 
Pmf. init (self) 
for hypo in hypos: 
self.Set(hypo,1) 
self.Normalize() 





Cookie 对 象 是 一 个 映射 假设 到 概率 的 Pmf 对 象 。_init_” 方 法 给 每 
个 假设 赋予 相同 的 先 验 概率 。 如 上 一 节 中 就 有 两 种 假设 : 


hypos= ['Bowl1', "Bow12 '] 
pmf =Cookie(hypos) 





Cookie 类 提供 了 Update 方法 ， 它 以 data 为 参数 并 修正 相应 的 概 


def Update (self,data): 
for hypo in self.Values(): 
like= self.Likelihood(data,hypo) 
self.Mult(hypo, like) 


self.Normalize() 





Update 遍历 suite 中 的 每 个 假设 ， 并 将 其 概率 乘 以 数据 在 某 一 假设 
下 的 似 然 度 ， 似 然 度 由 Likelihood 计算 : 


mixes = { 
"Bowl 1':dict(vanilla=6.75, chocolate=0.25), 
'Bowl 2':dict(vanilla=6.5, chocolate=0.5), 
} 


def Likelihood(self, data, hypo): 


mix = self.mixes[hypo] 
like = mix[data] 
return like 





Likelihood 使 用 mixes ， 它 使 用 Python 的 字典 结构 来 映射 硫 名 和 
在 硫 中 曲 奇 饼 的 混合 比例 。 


如 下 面 这 样 进行 更 新 : 


pmf.Update('vanilla') 





然后 我 们 就 可 以 打印 输出 每 个 假设 的 后 验 概率 ;: 


for hypo , prob in pmf.Items(): 
print hypo, prob 


Bowl 1 6.6 
Bowl 2 6.4 





结果 和 我 们 之 前 得 到 的 结论 一 样 。 比 起 我 们 在 前 面 章 节 看 到 的 ， 这 
段 代码 更 复杂 。 


一 个 优点 是 ， 它 可 以 推广 到 从 同一 个 碗 取 不 只 一 个 曲 奇 饼 〈 带 葵 
换 ) 的 情形 : 


dateset= ['vanilla', 'chocolate', 'vanilla'] 
for data in dataset: 
pmf.Update(data) 





男 一 优点 是 ， 它 提供 了 解决 许多 类 似 问题 的 框架 。 在 下 一 节 中 ， 我 
们 将 解决 蒙 带 大 厅 问 题 的 计算 ， 然后 看 看 框架 的 哪些 部 分 相同 。 

本 节 中 的 代码 可 以 从 http:NAthinkbayes.com/cookie2.py 获得 。 欲 了 解 
更 多 信息 ， 请 参见 前 言 的 “代码 指南 ”。 


2.4 Monty Hall 难 题 
为 了 解决 蒙 带 大 厅 (Monty Hall) 问题 ， 我 将 定义 一 个 新 的 类 : 


class monty(Pmf): 


def init (self, hypos): 
Pmf. init (self) 
for hypo in hypos: 
self.Set(hypo, 1) 
self.Normalize() 





到 目前 为 止 ， 驼 带 大 厅 和 曲 奇 饼 是 完全 一 样 的 。 创 建 Pmf 的 代码 也 
一 样 ， 除 了 假设 的 名 称 : 


hypos= ' ABC- 
pmf =Monty(hypos ) 








对 Update 的 调用 几乎 是 相同 的 : 


data="B' 
pmf.Update(data) 





Update 的 实现 也 是 完全 一 样 的 : 





def Update (self, data): 
for hypo in self.Values (): 
like = self.Likelihood(data, hypo) 
self.Mult(hypo, like) 
self.Normalize() 


[L 


唯一 需要 些 额外 工作 的 是 Likelihood : 


def Likelihood (self,data,hypo): 
if hypo==data: 
return 6 
elif hypo=="'A': 
return 6.5 


else: 
return 1 





最 后 ， 打 印 输出 的 结果 是 一 样 的 : 


for hypo, prob in pmf.Items(): 
print hypo,prob 


33333333333 


66666666667 








在 本 例 中 ，Likelihood 的 编写 有 一 扣 扩 复杂 ， 但 该 贝 叶 斯 框 染 的 
Update 很 简单 。 本 节 中 的 代码 可 以 从 http:Nthinkbayes.com/monty.py 获 
得 。 欲 了 解 更 多 信息 ， 请 参见 前 言 的 “代码 指南 ”。 








2.5 封装 框架 


现在 ， 我 们 看 看 框架 的 哪些 元 素 是 相同 的 ， 这 样 我 们 就 可 以 把 它们 
封装 进 一 个 Suite 对 象 ， 即 一 个 提供 ”init  ，Update 和 Print 方法 
的 pmf 对 象 : 


class Suite(Pmf) 
“代表 一 套 假 设 及 其 概率 。” 





def _ init (self, hypo=tuple()): 
“初始 化 分 配 。” 


def Update(self, data): 

















更 新 基于 该 数据 的 每 个 假设 。” 





Print (self): 
“打印 出 假设 和 它们 的 概率 。” 





Suite 的 实现 在 thinkbayes.py 中 。 要 使 用 Suite 对 象 ， 你 应 当 
编写 一 个 继承 自 Suite 的 类 ， 并 目 行 提供 Likelihood 方法 的 实现 。 例 
如 ， 这 是 一 个 以 蒙 带 大 厅 问 题 改写 的 使 用 Suite 的 方案 : 


from thinkbayes import Suite 
class Monty(Suite): 
def Likelihood (self,data,hypo): 
if hypo ==data: 
return 6 
elif hypo=="'A': 


return 9.5 
else: 
return 1 





而 下 面 是 一 个 使 用 这 个 类 的 代码 : 


suite=Monty('ABC') 


suite.Update('B') 
suite.Print() 





你 可 以 从 http:Nthinkbayes.com/monty2.py 下 载 这 个 例子 。 更 多 信息 
见 前 言 的 “代码 指南 ”。 


2.6 M&M 豆 问 题 


我 们 可 以 使 用 Suite 框架 来 解决 M&M 豆 的 问题 。 除 了 编写 
Likelihood 有 点 理 手 ， 其 他 一 切 都 很 简单 。 


首先 ， 需 要 对 1995 年 之 前 和 之 后 的 其 色 混合 情况 进行 封装 : 





mix94=dict(brown= 30, 
yellow= 26， 
red= 26， 
green= 10, 
orange= 16， 
tan= 16) 


mix96=dict(blue= 24， 


green= 20, 
orange= 16， 
yellow= 14， 
red= 13， 

brown= 13) 





然后 ， 封 装 假 设 : 


=dict(bag1 = mix94, bag2 = mix96) 
=dict(bag1 = mix96, bag2 = mix94) 





hypoA 表示 假设 袋 1 是 1994 年 ， 袋 2 是 1996 年 。hypoB 是 相反 的 组 


接 下 来 ， 从 假设 的 名 称 来 映射 其 含义: 





hypotheses=dict(A=hypoA, B=hypoB) 





最 后 ， 开 始 编写 Likelihood 。 在 这 种 情况 下 ， 假 设 hypo 是 一 个 A 
或 B 的 字符 串 ， 数 据 是 一 个 指定 了 袋子 年 份 和 颜色 的 元 组 。 


def Likelihood(self, data, hypo): 


bag, color = data 

mix = self.hypotheses[hypo][bag] 
like = mix[color] 

return like 





下 面 是 创建 该 suite 对 象 并 进行 更 新 的 代码 : 


suite = M and M('AB') 


suite.Update(('bag1l', 'yellow')) 
suite.Update(('bag2', 'green')) 


suite.Print() 





结果 如 下 : 


.7407460746741 
.259259259259 





A 的 后 验 概 率 大 约 是 20/27， 正 是 我 们 之 前 得 到 的 。 


本 节 中 的 代码 可 以 从 http:NAthinkbayes.com/m_and_m.py 获得 。 欲 了 
解 更 多 信息 ， 请 参见 前 言 的 “代码 指南 ”。 


2.7 讨论 
本 章 介 绍 了 Suite 类 ， 它 封装 了 贝 叶 斯 Update 框架 。 


Suite 是 一 个 抽象 类 (abstract type) ， 这 意味 着 它 定义 了 Suite 
应 该 有 的 接口 ， 但 并 不 提供 完整 的 实现 。Suite 接口 包括 Update 和 
Likelihood 方法 ， 但 只 提供 了 Update 的 实现 ， 而 没有 Likelihood 的 
实现 。 


具体 类 (concrerte type) 是 继承 上 自 抽 象 父 类 的 类 ， 而 且 提供 了 缺失 
方法 的 实现 。 例 如 ，Monty 扩展 自 Suite ， 所 以 它 继承 了 Update 并 且 
实现 了 Likelihood 。 


如 果 你 熟悉 设计 模式 ， 你 可 能 会 意识 到 这 其 实 是 设计 模式 中 模板 方 
法 的 一 个 例子 。 你 可 以 从 
http://en.wikipedia.org/wiki/Template_method_pattern 了 解 这 个 模式 。 


大 多 数 在 以 下 章节 中 的 例子 遵循 相同 的 模式 ， 对 于 每 个 问题 我 们 定 
一 个 扩展 的 Suite 对 象 ， 继 承 了 Update 方法 ， 并 提供 了 Likelihood 
。 在 少数 情况 下 ， 会 重 写 Update 方法 ， 通 常 是 为 了 提高 性 能 的 缘故 。 








2.8 ”练习 
练习 2-1。 


在 第 11 页 的 “ 贝 叶 斯 框架 ”里面 ， 我 提 到 了 曲 奇 饼 问题 的 解法 是 简化 
的 ， 是 曲 奇 饼 有 和 补充 的 取 多 个 饼 的 情况 (有 放 回 的 情况 〉。 


但 更 可 能 的 情况 是 ， 我 们 吃 掉 了 取出 的 曲 奇 饼 ， 那么 似 然 度 束 依 赖 
于 之 前 的 取 曲 奇 饼 行为 ( 曲 奇 饼 少 了 ) 。 


修改 本 章 中 的 解法 以 处 理 没 有 曲 奇 饼 补充 的 情况 。 提 示 : 添 
加 Cookie 的 实例 变量 来 表示 碗 的 假设 状态 ， 并 据 此 修改 似 然 度 。 你 可 
能 要 定义 一 个 Bowl 对 象 。 














大 入 站 -2 、 
第 3 章 ”估计 
3.1 骨 子 问题 

假设 我 有 一 盒 般 子 ， 里 面 有 4 面 的 般 子 、6 面 的 般 子 、8 面 的 山子 、 
12 面 的 山 子 和 20 面 的 骨 子 各 1 个 。 如 果 曾 经 玩 过 游戏 《 龙 与 地 下 城 》， 
你 当然 会 明白 我 的 所 指 。 


假如 我 随机 从 盒子 中 选 一 个 般 子 ， 转 动 它 得 到 了 6 。 那 么 每 一 个 贷 
子 被 选中 的 概率 是 多 少 ? 


我 通过 一 个 三 步 策略 来 解决 这 个 问题 。 
1. 选择 假设 的 表示 方法 。 

2. 选择 数据 的 表示 方法 。 

3. 编写 似 然 度 函数 。 


ee 中 我 用 字符 串 来 表示 假设 和 数据 ， 但 骨 子 问 题 中 我 将 
子 。 


确切 地 说 我 将 使 用 整数 4、6、8、12 和 20 来 表示 假设 : 


suite=Dice([ 4, 6, 8, 12, 28 ]) 


另外 ， 从 1 到 20 的 整数 作为 数据 。 有 了 这 些 表 达 式 ， 编 写 似 然 函数 
就 很 简单 了 : 





class Dice(Suite) : 
def Likelihood(self, data, hypo): 
if hypo < data: 
return 6 


else: 


return 1.6/hypo 


这 里 Likelihood 的 原理 是 : 如 果 hypo<data ， 意 味 着 投 人 骨 子 值 大 
于 般 子 的 面 数 ， 显 然 这 是 一 个 不 可 能 的 情形 ， 所 以 似 然 度 是 0。 


另外 的 情形 下 ， 问 题 变 成 “考虑 到 所 有 假设 的 点 数 ， 得 到 茶 个 点 数 
结果 的 机 会 是 多 少 ?” 


答案 是 1/hypo 无 论 数据 是 什么 。 


下 面 是 使 用 update (如 果 转 动 得 到 6〉 的 语句 声明 : 





suite.Update (6) 





后 验 分 布 的 结果 如 下 : 


0.0 

0.392156862745 

0.294117647859 
2 0.196678431373 
26 6.117647658824 





当 得 到 6 后 ， 明 子 是 4 面 的 概率 是 0。 最 可 能 的 备 选 是 6 面 人 般 ， 但 也 有 
约 12% 的 可 能 是 20 面 般 。 


如 果 我 们 多 摇 几 次 ， 得 到 6，8，7，7，5，4 这 样 一 组 数据 的 情况 下 
呢 ? 





for roll in [ 6， 8， 7， 7， 5， 4 ] 3 
suite.Update (Fol1) 


| 


结合 该 组 数据 ， 可 以 去 掉 6 面 角 的 可 能 性 了 因为 有 大 于 6 的 值 〉， 
8 面 角 看 起 来 可 能 性 很 大 。 


结果 如 下 : 


0.0 
0.0 
0.943248453672 


2 0.0552661286613 
8 0.60615454182665 








骨 子 问题 参考 了 我 在 Sanjoy Mahajan 的 贝 叶 斯 推论 课 上 看 到 的 一 个 
例子 。 


你 可 以 从 http:/Nthinkbayes.com/dice.py 下 载 代 码 。 欲 了 解 更 多 信 
自 


恩 ， 请 参见 前 言 的 “代码 指南 ”。 


3.2 ”火车 头 问 题 


我 是 在 弗 雷 德里 克 : 莫 斯 泰勒 的 《五 十 个 概率 难题 的 解法 》 (多 佛 
出 版 社 ，1987) 一 书 中 发 现 火车 头 问 题 的 : 


铁路 上 以 1 到 N 命名 火车 头 。 有 一 天 你 看 到 一 个 标号 60 的 火车 
头 ， 请 估计 铁路 上 有 多 少 火 车 头 ? 


基于 这 一 观察 结果 ， 我 们 知道 铁路 上 有 60 个 或 更 多 的 火车 头 。 但 这 
个 数字 到 底 是 多 少 ? 


要 应 用 贝 叶 斯 进行 推理 ， 我 们 可 以 将 这 个 问题 分 成 两 步 又 进行 : 
1. 在 得 到 数据 之 前 ， 我 们 对 六 的 认识 是 什么 ? 


2. 已 知 一 个 六 的 任意 值 后 ， 得 到 数据 (“标志 为 60 写 的 火车 头 ”) 
的 似 然 度 ? 


第 一 个 问题 的 答案 就 是 问题 的 前 置 概率 。 第 二 个 问题 是 似 然 度 。 
在 选择 前 置 概率 上 ， 我 们 还 没有 太 多 的 基本 信息 ， 但 我 们 可 以 从 一 


些 简单 情况 开始 ， 再 考虑 进一步 的 方法 。 假 设 N 可 以 是 从 1 到 1000 等 概 
率 的 任何 值 。 


hypos= xrange (1，1661) 


接着 我 们 需要 的 是 一 个 似 然 函 数 。 先 假设 存在 一 个 有 NN 个 火车 头 的 
车 队 ， 我 们 看 到 60 号 火车 头 的 概率 是 多 少 ? 假设 只 有 一 个 列车 运营 公司 
《或 者 只 有 一 个 我 们 关注 的 公司 ) ， 看 到 任意 一 个 火车 头 有 同等 可 能 
那么 看 到 的 任何 特定 火车 头 的 机 会 为 IN 。 


似 然 度 函 数 如 下 : 


class Train(Suite) : 
def Likelihood(self，data，hypo) : 








if hypo<data: 
return 6 

else: 
return 1.6/hypo 





看 起 来 很 熟悉 ， 似 然 函 数 在 火车 头 问 题 和 骨 子 问题 上 是 相同 的 。 
Update 如 下 : 


suite=Train (hypos) 
suite.Update (60) 





因为 有 太 多 的 假设 “1000) 要 打印 输出 ， 所 以 我 绘制 了 如 图 3-1 所 





示 的 结果 。 意 料 之 中 的 是 ，N 中 60 以 下 的 所 有 值 都 被 去 掉 了 。 


0.006 


0.005 


0.002 
0.001 


oboe 200 400 600 800 1000 


列车 数量 
图 3-1 火车头 问题 的 后 验 分 布 ， 基 于 均匀 分 布 的 先 验 
如 果 非 要 猜测 的 话 ， 最 可 能 的 值 是 60。 这 似乎 算 不 上 很 好 的 结 细 
毕竟 ， 想 想 你 恰好 看 到 最 高 标志 号 火车 头 的 机 会 是 多 少 呢 《应 该 不 高 


吧 ) ? 不 过 ， 如 采 想 使 猜 到 的 答案 完全 正确 的 可 能 性 最 大 化 ， 你 应 该 猜 
60。 








不 过 ， 这 还 不 是 我 们 的 目标 。 男 一 个 可 选 的 方法 是 计算 后 验 概率 的 
平均 值 分 布 : 


def Mean(suite): 
total= 6 
for hypo, prob in suite.Items (): 
total + = hypo*prob 


return total 
print Mean(suite) 








或 者 你 可 以 用 由 Pmf 提 供 的 非 第 类 似 的 方法 : 


print suite.Mean () 








后 验 的 平均 值 是 333， 所 以 要 是 你 想 最 大 限度 地 减少 错误 ， 这 也 许 
古 一 个 很 好 的 猜测 结 


如 果 你 一 所 又 一 思 地 玩 这 个 猜谜 游戏 ， 使 用 后 验 概 率 的 平均 值 来 作 
为 估计 值 会 减少 从 长 远 来 看 的 均 方 着 《参考 


http://en.wikipedia.org/wiki/Minimum_mean_square_error ) 。 


你 可 以 从 http:Mthinkbayes.comytrain.py 下 载 这 个 例子 。 如 需 更 多 信 
恩 参 见 前 言 的 “代码 指南 ”。 


3.3 ”怎样 看 行 先 验 概 率 ? 

为 了 进一步 解决 火车 头 问题 ， 我 们 必须 进行 一 些 假设 。 

其 中 一 些 是 相当 武断 的 。 尤 其 当 我 们 选择 了 在 1-1000 间 的 均匀 随机 
分 布 的 先 验 概率 。 其 实 并 没有 特别 的 理由 选择 1000 作 为 上 界 或 均匀 随机 
来 作为 分 布 特征 。 


相信 一 个 运营 着 1000 个 火车 头 的 铁路 公司 算 不 上 状 狂 ， 但 一 个 理性 
扩 的 人 可 能 会 对 这 一 问题 做 出 更 多 或 更 少 的 猜测 。 


因此 ， 我 们 可 能 想 知 道 是 否 后 验 概率 分 布 对 这 些 假设 敏感 。 仅 仅 依 
赖 一 次 观察 的 小 量 数据 ， 情 况 可 能 真是 如 此 的 《敏感 ) 。 

回忆 一 下 ， 从 1 到 1000 的 均匀 分 布 的 先 验 概率 ， 后 验 概率 的 平均 值 
是 333。 同 样 上 界 为 500， 我 们 得 到 的 后 验 平 均值 为 207， 一 个 2000 的 上 
界 后 验 平 均值 为 552。 


所 以 结果 很 粮 (猜测 结果 对 上 界 敏感 ，。 有 两 种 方法 继续 进行 分 
并: 





。 获取 更 多 的 数据 。 
。 更 多 的 背景 信息 。 


有 了 更 多 的 数据 后 ， 基 于 不 同 的 先 验 概 率 ， 后 验 分 布 趋 于 收敛。 


是、 假设 除了 列车 60 我 们 也 看 到 列车 30 和 90。 我 们 可 以 这 样 更 新 
分 布 : 


for data in[66，36，96]: 
suite.Update (data) 





采用 这 些 数据 时 ， 后 验 概率 的 均值 是 
和 


上 限 后 验 均值 




















这 样 差异 就 较 小 了 。 


3.4 其 他 先 验 概 率 
如 果 没有 更 多 的 数据 ， 另 一 个 方法 是 通过 收集 背景 资料 优化 先 验 。 


大 型 和 小 型 公司 有 同等 可 能 性 的 假设 也 许 相 当 不 合理 ， 大 型 公司 可 
能 有 1000 台 火车 头 ， 小 型 公司 仅 有 1 台 火 车 头 。 


通过 一 些 努 力 ， 我 们 很 有 可 能 发 现在 观察 区 域内 火车 运营 公司 的 清 
单 ， 或 者 可 以 采访 铁路 运输 专家 来 收集 这 些 公司 一 般 规模 的 信息 。 

但 是 ， 即 使 没有 深入 了 解 铁路 产业 的 一 些 具 体 情 况 ， 我 们 也 可 以 做 
一 些 猜 测 。 在 大 多 数 领域 ， 有 大 量 小 型 公司 ， 一 些 中 型 公司 ， 一 个 到 两 
个 非常 大 型 的 公司 。 

事实 上 ， 公 司 规模 的 分 布 往往 遵循 虎 律 ， 参 考 罗 伯 特 : 阿 元 斯 特 尔 
在 《科学 》 杂 志 上 的 报道 ( 
http:/www.sciencemag.org/content/293/5536/1818.full.pdf ) 。 

这 规律 表明 ， 如 果 少 于 10 个 火车 头 的 公司 有 1000 家 ，100 个 火车 头 
的 公司 可 能 有 100 家 ，1000 个 火车 头 的 公司 有 10 家 ，10000 个 火车 头 的 公 
司 可 能 仪 有 1 家 。 


在 数学 上 ， 顺 律 表示 公司 的 数量 与 公司 规模 成 反比 ， 或 


1 Or 
PMF(7z) cx (2) 
J 


其 中 PMF(x ) 是 x 的 概率 质量 函数 ，a 是 一 个 通常 接近 于 1 的 参数 。 
我 们 可 以 构造 一 个 服从 窜 律 分 布 的 先 验 如 下 : 

















class Train (Dice): 


def init _ (self, hypos, alpha = 1.0): 
Pmf. init (self) 
for hypo in hypos: 
self.Set (hypo, hypo** (-alpha)) 
self.Normalize () 





而 下 面 是 生成 前 置 概率 的 代码 : 


hypos=Prange(1,1661) 
suite=Train(hypos) 





再 次 说 明 ， 上 限 是 任意 的 ， 但 对 于 只 律 分 布 的 先 验 概率 ， 后 验 概率 


对 这 一 选择 的 敏感 性 较 小 。 


概率 值 














图 3-2 表 示 了 基于 爱 律 后 与 之 前 基于 均匀 随机 后 验 概 率 的 比较 。 
0.018 


0.016 人 
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图 3-2 ”前 验 为 震 律 的 后 验 分 布 ， 对 比 于 均匀 前 验 分 布 





考虑 了 窜 律 分 布 作 为 背景 资料 后 。 我 们 可 以 消除 大 于 700 的 NN 值 
下 


如 果 基 于 这 种 先 验 概 率 ， 在 观察 到 列车 30、60 和 90 时 ， 后 验 概 率 分 
别 | 是 : 


别 
wm 





现在 的 差异 小 得 多 了 《考虑 不 同上 界 的 假设 ) 。 事 实 上 ， 考 虑 一 个 





任意 大 的 上 界 ， 平 均值 都 收 线 于 134。 


所 以 基于 窜 律 分 布 的 先 验 概率 是 比较 现实 的 ， 因 为 它 基 于 公司 规模 
的 一 般 情况 ， 并 且 在 实际 中 表现 得 更 好 。 


你 可 以 从 http:/Nthinkbayes.com/train3.py 下 载 本 节 程 序 的 例子 。 欲 了 
解 更 多 信息 ， 请 参见 前 言 的 “代码 指南 ”。 











3.5 置信 区 间 


一 旦 计算 出 的 后 验 分布 ， 通 过 单 点 估计 或 区 间 对 后 验 分 布 进行 总 结 
通常 是 有 用 的 。 

对 于 点 估计 ， 通 常 使 用 平均 数 、 中 位 数 或 最 大 似 然 值 。 

对 于 区 间 ， 我 们 通 御 给 出 两 个 计算 值 ， 使 得 未 知 量 有 90% 的 可 能 落 
入 这 两 个 值 之 间 《 或 者 任何 其 他 的 概率 值 ) 。 这 些 值 定义 了 一 个 置信 区 
间 。 


计算 置信 区 间 的 一 个 简单 方法 是 在 后 验 概率 分 布 中 累加 其 中 的 概 
率 ， 并 记录 对 应 于 概率 59% 和 95% 的 值 。 也 就 是 说 ， 第 5 和 第 95 百 分 位 。 


thinkbayes 提供 了 一 个 函数 计算 百 分 位 数 : 


def Percentile(pmf, percentage): 
p = percentage / 166.6 
total = 6 
for val, prob in pmf.Items() : 
total += prob 


if total >= p: 
return val 





下 面 是 一 个 其 应 用 代码 : 


interval = Percentile(suite, 5), Percentile(suite, 95) 
print interval 





在 前 面 的 示例 (看 到 了 三 个 火车 ， 且 呈 究 律 分 布 的 先 验 概率 的 火车 
头 问题 ) 中 90% 置 信 区 间 为 〈91243) 。 如 此 大 的 范围 其 实 确切 的 表 
“es 
人 


3.6 ”累积 分 布 函 数 


在 上 一 市 中 ， 我 们 通过 数值 达 代 计算 出 百分比 和 Pmf 的 概 紊 。 如 果 
我 们 需要 计算 多 个 百 分 位 数 ， 更 有 效 方法 是 使 用 累积 分 布 函 数 ， 或 
Cdf。 


由 于 包含 有 茶 个 分 布 的 相同 的 信息 ， 在 这 个 意义 上 Cdf 和 Pmf 是 等 价 


的 ， 并 可 以 随时 从 一 个 转换 到 另 一 个 。Cdf 的 优点 是 可 以 更 有 效 地 计算 
百 分 位 数 。 


thinkbayes 有 一 个 表示 过 积分 布 函 数 的 Cdf 类 。Pmf 提供 了 一 种 
方法 生成 相应 的 Cdf: 


cdf = suite.MakeCdf () 


Cdf 提供 了 一 个 名 为 Percentile 的 函数 


interval = cdf.Percentile(5), cdf.Percentile(95) 


将 Pmf 转 换 为 Cdf 需 要 正比 于 值 数 量 len(pmf) 的 运算 时 间 。Cdf 将 
值 和 概率 存储 在 有 序列 表 里 Qist) ， 所 以 查询 某 个 概率 得 到 相应 的 值 
需要 “对 数 时 间 (log time) ” 即 ， 时 间 和 值 的 数量 的 对 数 成 正比 。 查 询 
0 所 以 Cdf 对 于 很 多 计算 来 说 都 是 


本 节 中 的 例子 位 于 http:Nthinkbayes.com/train3.py 。 欲 了 解 更 多 信息 
参见 前 言 的 “代码 指南 ”。 


3.7 ”德军 坦克 问题 


第 二 次 世界 大 战 期 间 ， 在 伦 吝 的 美国 大 使 馆 战 争 经济 部 门 使 用 统计 
分 析 来 估计 德国 生产 的 坦克 和 其 他 装备 中 。 


西方 盟 军 获得 了 一 份 记录 短 ， 记 录 了 存货 和 修理 记录 ， 其 中 包括 坦 
克 的 底盘 和 发 动机 的 序列 号 。 


这 些 记录 的 分 析 表 明 ， 制 造 商 为 坦克 类 型 分 配 了 以 100 为 一 个 区 间 
的 序列 号 ， 每 个 区 间 内 的 号 码 都 是 成 序列 的 ， 但 并 不 是 每 个 区 间 内 的 数 
字 都 用 到 了 。 如 此 一 来 ， 在 每 个 100 的 区 间 内 ， 佑 算 德 军 坦克 问题 的 范 
围 就 可 以 按照 之 前 的 火车 头 问题 来 缩小 了 。 


基于 这 种 认识 ， 美 国 和 英国 的 分 析 师 们 完成 了 远 远 小 于 源 目 情报 部 
Je 
全 。 











他 们 也 对 轮胎 、 卡 和 车、 火箭 等 设备 进行 类 似 的 分 析 ， 产 生 准 确实 用 
的 经 济 情报 。 


德军 坦克 问题 是 个 历史 上 有 趣 的 问题 ， 也 是 一 个 很 好 的 在 现实 世界 
应 用 统计 估计 的 例子 。 到 目前 为 止 ， 本 书 的 许多 例子 都 是 游戏 性 质 的 问 
题 ， 但 我 们 瑟 上 会 开始 开始 解决 实际 问题 。 我 认为 它 是 贝 叶 斯 分 析 的 优 
扩 ， 特 别 是 在 我 们 正在 使 用 的 计算 方法 上 ， 它 提供 了 一 条 从 基础 介绍 到 
研究 前 沿 的 捷径 。 





3.8 ”讨论 


贝 叶 斯 当中 ， 有 两 种 途径 选择 先 验 分 布 。 一 些 人 建议 选择 最 能 代表 
问题 相关 背景 资料 的 先 验 概率 ， 在 这 种 情况 下 ， 先 验 被 认为 是 “信息 ”。 
问题 是 ， 人 们 可 能 会 使 用 不 同 的 背景 信息 《或 者 进行 不 同 的 诠释 ) 。 所 
以 基于 信息 的 先 验 往 往 显 得 主观 。 


为 一 种 方法 是 所 请 的 “无 信息 参考 的 先 验 ”， 其 目的 是 为 了 让 数据 
来 说 话 ， 越 没有 约束 越 好 。 在 茶 些 情况 下 ， 你 可 以 选择 包含 一 些 期 望 属 
性 的 特殊 移 验 ， 例 如 ， 就 估计 量 设置 一 个 最 小 先 验 。 


“无 信息 移 验 ?观点 存在 是 因为 它们 似乎 更 为 客观 。 但 通常 ， 我 倾 问 
使 用 先 验 信息 。 为 什么 呢 ? 首先 ， 贝 叶 斯 分 析 总 是 基于 模型 决策 的 。 选 
择 先 验 就 是 决策 之 一 ， 但 它 不 是 唯一 的 部 分 ， 甚 全 可 能 不 是 最 主观 的 。 
因此 ， 即 使 无 信息 先 验 较为 客观 ， 整 个 分 析 本 里 仍然 是 主观 的 。 


另外 ， 对 于 大 多 数 实际 中 的 问题 ， 你 很 可 能 是 在 两 个 (对立 面 ) 之 
间 : 也 许 有 大 量 的 数据 ， 也 许 没 有 。 如 果 你 有 大 量 的 数据 ， 先 验 的 选择 
不 是 特别 关键 信息 先 验 和 无 信息 先 验 会 得 到 几乎 相同 的 结果 。 我 们 会 
在 下 一 章 看 到 类 似 的 例子 。 


不 过 ， 如 果 像 火车 头 问题 ， 如 果 你 没有 太 多 的 参考 数据 ， 那 么 采用 
相关 的 背景 信息 (如 肾 律 分 布 ) 束 有 很 大 区 别 了 。 


而 比如 德军 坦克 问题 ， 如 果 必 须 基 于 你 的 结论 做 出 生死 存亡 的 决 
策 ， 你 就 应 该 利用 所 有 的 信息 ， 而 不 是 在 “要 保持 客观 “的 约 党 中 假装 不 
了 解 具 体 情 况 。 





























3.9 练习 
练习 3-1。 


为 火车 头 问 题写 一 个 似 然 函 数 ， 我 们 必须 要 回答 这 个 问题 :“ 如 宁 
铁路 上 有 六 个 火车 头 ， 我 们 看 到 60 号 的 概率 是 多 少 ? ” 


答案 取决 于 当 我 们 观 凤 到 火车 头 时 ， 所 采用 的 取样 过 程 。 


在 本 章 中 ， 我 通过 指定 只 有 一 个 列车 运营 公司 《或 只 有 一 个 我 们 关 
心 ) 解决 了 这 个 模 校 两 可 的 问题 。 


但 是 假设 有 很 多 家 使 用 不 同 火 车 头号 码 编排 的 公司 ， 再 假设 看 到 任 
意 公 司 经 营 的 任意 火车 的 可 能 性 相同 。 在 这 种 情况 下 ， 似 然 函 数 是 不 同 
的 ， 因 为 你 更 有 可 能 看 到 一 列 由 大 型 公司 运营 的 火车 。 


作为 练习 ， 实 现 火 车 尖 似 然 函数 的 这 种 变化 ， 并 比较 结 


Q 拉 格 尔 斯 ， 布 罗 迪 .实证 方法 经 济 情报 大 战 [J]. 《美国 统计 协会 》 杂 
志 ，1947, :起 42 第 237 号 ， 


往生 a \、[ 证 人 
第 4 章 ”估计 进 队 
4.1 欧元 问题 
在 《信息 论 ， 推 理 和 学 习 算 法 》 一 书 中 ， 大 卫 . 麦 凯 提 出 了 这 样 一 


个 问题 : 





2000 年 1 月 4 日 ， 星 期 五 ，《 卫 报 》 上 刊载 了 一 个 统计 相关 的 声 


当 以 边缘 转动 比利时 一 欧元 硬币 250 次 后 ， 得 到 的 结果 是 正面 
140 次 反面 110 次 。“ 这 看 起 来 很 可 疑 ?， 伦 敦 经 济 学 院 的 统计 讲师 巴 
里 : 布 莱 特 说 , “如 果 便 币 是 均匀 的 ， 得 到 这 个 结果 的 可 能 性 低 于 
7%。” 


那么 ， 这 一 结果 是 否 对 “硬币 侦 心 而 非 均匀 提供 了 证 据 呢 ? 


我 们 将 采取 以 下 两 个 步 又 回答 这 个 问题 。 第 一 是 估计 该 硬币 正面 朝 
上 的 概 紊 。 第 二 是 评估 该 数据 是 否 支 持 了 便 币 偏心 的 假设 。 


你 可 以 从 http:Nthinkbayes.com/euro.py 下 载 代码 。 欲 了 解 更 多 信 
妃 ， 请 参见 前 言 的 “代码 指南 ”。 


以 边缘 旋转 任 一 人 硬币 时 都 有 正面 朝 上 的 概率 x 。 有 理由 相信 x 的 值 
取决 于 人 硬币 的 一 些 物 理 特性 ， 主 要 是 重量 的 分 布 。 


如 果 人 硬币 完全 均匀 ， 我 们 预计 x 应 该 接近 50%， 但 对 于 一 个 不 匀称 
的 人 硬币，x 应 该 会 大 有 差别 。 我 们 可 以 用 贝 叶 斯 定理 和 观测 到 的 数据 来 
估计 x 。 


我 们 定义 一 个 假设 101， 其 中 瓦 , 是 假设 正面 朝 上 的 概率 x %， 其 值 
从 0 到 100。 首 先 以 均匀 前 置 概率 开始 ， 其 中 瓦 , 的 概率 对 所 有 的 x 是 相同 
的 。 后 面 我 们 再 考虑 其 他 先 验 概 率 的 情况 。 


likelihood 函 数 相 对 容易 : 如 果 瓦 , 为 真 ， 正 面向 上 的 概率 为 x /100 而 反面 


癌 上 的 概率 为 1-x/100。 


class Euro(Suite): 


def likelihood (self, data, hypo): 
x =hypo 
if data== 'H': 
return X/166.6 
else: 
return 1 - X/166.6 





下 面 是 实现 suite 和 update 的 代码 : 


suite=Euro (xrange (6 ， 161)) 
dataset = 'H' * 146 + 'T * 116 


for data in dataset: 


suite.Update (data) 





其 结果 如 图 4-1 所 示 。 
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图 4-1 


前 验 为 均匀 分 布 的 前 提 下 ， 欧 元 问题 的 后 验 分 布 
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4.2 后 验 概率 的 概述 


总 结 一 下 ， 有 几 种 方式 来 概括 后 验 分 布 的 特征 。 一 种 选择 是 找到 后 
验 分 布 的 最 大 似 然 值 。 


thinkbayes 提供 了 一 个 函数 实现 ; 


def MaximumLikelihood(pmf) : 
“返回 具有 最 高 概率 的 值 。” 
prob, val = max((prob, val)for val,prob in pmf.Items ()) 

















return val 





在 这 种 情况 下 ， 结 果 是 56， 这 也 是 观察 得 到 的 百分比 140/250= 
56%。 因 此 这 正确 地 解释 了 观察 到 的 百分比 就 是 最 大 似 然 值 。 


我 们 也 可 以 计算 平均 数 和 中 位 数 来 概述 后 验 概率 : 





print 'Mean', suite.Mean() 
print 'Median', thinkbayes.Percentile(suite, 50) 





均值 为 55.95， 中 位 数 为 56。 
最 后 ， 我 们 可 以 计算 出 一 个 置信 区 间 : 


print 'CI', thinkbayes.CredibleInterval(Suite, 90) 





其 结果 是 (51,61) 。 


现在 ， 回 到 原来 的 问题 ， 我 们 想 知 道 硬 币 是 否 是 均匀 的 。 观 察 到 的 
后 验 可 信和 区间 不 包括 50%， 这 就 表明 了 硬币 的 确 是 不 均匀 的 。 


但 确切 地 说 ， 这 不 是 开始 的 那个 问题 。Mckay 提 出 的 是 “这 些 数据 
古 否 恰恰 为 一 一 人 硬币 偏心 而 非 均 匀 一 一 给 出 了 证 据 ? 要 回答 这 个 问题 ， 
我 们 要 更 精确 地 理解 “数据 为 某 一 假说 提供 了 证 据 ” 这 人 句 话 的 售 义 。 不 过 
那 是 下 一 章 的 主题 了 。 


那么 ， 在 继续 探讨 之 前 ， 我 想 先 讲 讲 导 致 困扰 的 原因 。 既 然 我 们 要 
知道 便 币 是 人 否 均 习 ， 很 目 然 是 求 得 x 为 50% 的 概率 : 


print suite.Prob (508) 


结 末 是 0.021， 该 值 几乎 说 明 不 了 什么 。 这 使 得 对 假设 101 的 评估 显 
坚 无 意义 。 我 们 可 将 范围 区 间 划 分 成 更 多 或 更 少 的 细小 区 间 ， 如 果 这 
， 对 给 定 假设 的 概率 则 会 更 大 或 更 小 。 











得 
样 


4.3” 先 验 概率 的 漂 没 


本 章 开 始 ， 我 们 假设 先 验 是 均匀 的 ， 但 这 可 能 不 是 一 个 好 选择 。 如 
果 硬 币 是 偏心 的 ， 可 以 相信 x 会 大 幅 偏 离 50%， 但 如 果 偏 心 到 使 得 x 是 
10% 或 90% 就 太 不 可 能 了 。 


更 合理 的 是 选择 在 50% 附 近 有 较 高 概率 ， 而 在 那些 极端 值 上 〈 指 
10% 或 90%) 概率 较 低 的 一 个 先 验 。 


作为 一 个 例子 ， 我 构建 了 一 个 三 角形 状 的 先 验 概 率 ， 如 图 4-2 所 
外。 
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图 4-2 欧元 问题 的 均匀 型 和 三 角 型 分 布 先 验 
下 面 的 代码 构成 了 所 述 三 角 状 的 先 验 : 


def TrianglePrior () : 
suite = Euro() 
for x in range(0 ， 51) : 
suite.Set (x, x) 
for x in range(51 ， 161) : 
suite.Set (x, 166 - x) 
suite.Normalize () 








图 4-2 显 示 了 结果 (和 均匀 先 验 概率 比较 ) 。 以 相同 的 数据 集 更 新 
先 验 概率 得 到 如 图 4-3 所 示 的 后 验 分 布 。 即 使 实质 上 不 同 的 先 验 ， 后 验 
分 布 也 非常 相似 。 中 位 数 和 置信 区 间 是 相同 的 ， 均 值 差 小 于 0.5%。 
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图 4-3 ”欧元 问题 的 后 验 分 布 
这 就 是 先 验 潭 没 的 一 个 例子 : 如 果 有 足够 的 数据 ， 即 使 在 先 验 分 


布 上 持 有 不 同 观点 ， 人 们 也 会 得 到 趋 于 收敛 的 后 验 概率 。 


4.4 优化 


到 目前 为 止 ， 我 所 展示 的 代码 都 是 为 了 方便 理解 ， 但 效率 不 算 高 。 
通常 ， 我 完 开 发 实证 无 误 的 代码 ， 然 后 再 检查 对 于 达到 目的 是 否 够 快 。 
如 果 是 ， 代 码 束 没有 进行 优化 的 必要 。 

在 这 个 例子 中 ， 如 采 我 们 关注 运行 时 间 ， 有 几 种 方法 可 以 加 速 代 码 
运行 。 


第 一 个 可 能 方法 是 减少 归 一 化 suite 的 次 数 。 在 原始 代码 中 每 一 次 模 
拟 《〈《 转 动 便 币 ) 都 调用 Update 一 次 。 








dataset = 'H' * heads + 'T' * tails 


for data in dataset: 
suite.Update(data) 





下 面 是 Update 方法 : 


def Update(self, data): 
for hypo in self.Values(): 
like = self.Likelihood(data, hypo) 
self.Mult(hypo, like) 
return self.Normalize() 





每 次 Update 都 会 欠 代 假设 集 ， 然 后 调用 Normalize ， 再 次 迭代 假设 
集 。 我 们 可 以 通过 在 Normalize 之 前 先 update 来 节省 一 些 时 间 。 


suite 提供 了 一 个 名 为 UpdateSet 的 方法 就 是 这 么 实现 的 ， 如 下 : 








def UpdateSet(self, dataset): 
for data in dataset: 
for hypo in self.Values(): 


like = self.Likelihood(data, hypo) 
self.Mult(hypo, like) 
return self.Normalize() 





下 面 是 我 们 怎么 调用 它 : 


dataset = 'H' * heads + 'T' * tails 
suite.UpdateSet (dataset) 








这 优化 了 速度 ， 但 运行 时 间 仍 是 与 数据 量 成 正比 的 。 我 们 可 以 通过 
改写 Likelihood 处 理 整 个 数据 集 ， 而 不 是 一 次 模拟 运行 一 次 。 


在 最 初 的 版 本 中 ， 数 据 编写 为 正面 或 反面 的 字符 串 : 








def Likelihood(self, data, hypo): 
x = hypo / 166.6 
if data == 'H' : 
return x 
else: 
return 1-x 





有 一 种 丛 代 方法 ， 我 们 可 以 将 数据 集 当 作 有 两 个 整数 的 元 组 来 进行 
编码 : 正面 和 反面 的 数量 。 


在 这 种 情况 下 的 Likelihood 如 下 : 





def Likelihood(self, data, hypo): 
x = hypo / 166.6 
heads, tails = data 
like = x**heads * (1-x)**tails 


return like 





然后 我 们 就 可 以 像 下 面 这 样 调 用 Update : 


heads, tails = 140，116 
suite.Update( (heads, tails)) 











由 于 我 们 用 指数 函数 取代 了 重复 的 乘法 ， 对 任意 次 不 同 数量 的 模拟 
《转动 硬币 ) ， 这 个 版 本 代码 消耗 的 运行 时 间 是 一 样 的 。 


4.5 Beta 分 布 
还 有 一 个 进一步 的 优化 让 解法 更 快 。 


到 目前 为 止 ， 我 们 已 经 使 用 了 Pmf 对 象 来 表示 一 组 离散 的 x 值 。 现 
在 ， 我 们 将 使 用 一 个 连续 分 布 ， 确 切 地 说 是 beta 分 布 “ 见 
http://en.wikipedia.org/wiki/Beta_distribution ) 。 


beta 分 布 定 义 在 从 0 到 1 (包括 两 者 ) 的 区 间 上 ， 所 以 它 是 一 个 描述 
比例 和 概率 的 目 然 选择 。 稍 等 ， 还 要 更 好 。 


如 果 你 像 上 市 一 样 ， 用 一 个 二 项 式 似 然 函 数 来 实现 贝 叶 斯 更 新 ， 加 
上 beta 分 布 是 一 个 共 轿 先 验 。 那 就 意味 着 如 果 x 的 先 验 概 率 的 分 布 是 一 
个 beta 分 布 ， 那 其 后 验 概率 也 是 一 个 beta 分 布 。 别 急 ， 比 这 还 要 好 。 


beta 分 布 的 形状 取决 于 两 个 参数 ， 写 为 a 和 PB ， 或 alpha 和 beta 。 
如 果 先 验 概率 是 带 有 参数 alpha 和 beta 的 beta 分 布 ， 我 们 看 到 h 次 正面 
和 +t 次 反面 的 数据 ， 后 验 概率 就 是 参数 为 alpha+th 和 beta+t 的 beta 分 
布 。 换 句 话 说 ， 通 过 两 个 加 法 实现 了 Update 方 法 。 


所 以 这 很 了 不 起 ， 只 不 过 仅 适 用 于 先 验 概 率 的 分 布 的 确 是 一 个 beta 
分 布 的 情形 。 幸 运 的 是 ， 在 最 低 限 度 上 ， 对 许多 实际 的 先 验 分 布 beta 分 
布 都 可 以 进行 良好 的 近似 ， 同 时 也 可 以 完美 匹配 均匀 前 验 。 参 
数 alpha=1 和 beta=1 的 beta 分 布 就 是 从 0 到 1 的 均匀 分 布 。 


让 我 们 看 看 如 何 利用 这 一 切 优势 。thinkbayes .py 提供 了 一 个 类 
来 表示 beta 分 布 : 





class Beta(obJject ) : 


def _ init (self, alpha=1, beta=1): 
self.alpha = alpha 
self.beta = beta 





默认 情况 下 的 _init _ 使 用 均匀 分 布 。Update 进行 贝 叶 斯 更 新 : 


def Update(self, data): 
heads, tails = data 
self.alpha += heads 


self.beta += tails 








data 是 一 对 代表 正面 和 反面 数量 的 整数 。 
因此 ， 我 们 有 男 一 种 方法 来 解决 欧元 问题 : 


beta = thinkbayes .Beta() 
beta.Update((1406, 110)) 
print beta.Mean() 





beta 提供 了 Mean ， 计 算 alpha 和 beta 的 一 个 简单 函数 : 


def Mean(self): 
return float(self.alpha) / (self.alpha + self.beta) 








对 于 欧元 问题 后 验 的 平均 值 为 56%， 这 和 我 们 使 用 Pmf 得 到 的 结 
是 相同 。 


beta 还 提供 了 EvalPdf ， 它 计算 beta 分 布 的 概率 密度 函数 
(PDF) : 





def EvalPdf(self，X) : 
return x**(self.alpha-1) * (1-x)**(self.beta-1) 





最 后 ，beta 提供 MakePmf 方法 ， 它 使 用 EvalPdf 生成 beta 分 布 的 
离散 近似 值 。 


4.6 讨论 


在 本 章 中 ， 我 们 用 两 个 不 同 的 移 验 处 理 同 一 个 问题 ， 发 现在 较 大 数 
气 集 的 条 件 下 ， 先 验 之 间 的 区 别 被 掩盖 了 。 如 果 两 个 人 开始 之 前 对 于 先 
验 有 不 同 信 仰 ， 他 们 通常 会 发 现 ， 随 着 得 到 更 多 的 数据 ， 后 验 分 布 收敛 
了 。 在 一 些 点 上 ， 分 布 之 间 的 差异 足够 小 到 没有 实际 影 啊 。 


当 这 种 情况 出 现时 ， 会 减轻 一 些 我 在 前 一 章 关 于 客观 性 的 担忧 。 甚 
至 对 于 许多 现实 世界 的 问题 ， 明 显 不 同 的 移 验 信 念 最 终 都 会 被 数据 所 矫 
na 





但 事实 并 非 总 是 如 此 。 首 先 ， 请 记 住 ， 所 有 的 贝 叶 斯 分 析 是 基于 模 
型 决策 的 。 如 果 你 和 我 没有 选择 相同 的 模型 ， 我 们 可 能 对 数据 进行 不 同 
的 解读 (诠释 ) 。 因 此 ， 即 使 使 用 相同 的 数据 ， 我 们 也 会 计算 得 到 不 同 
的 似 然 度 ， 因 而 后 验 概率 就 可 能 不 收敛 。 


另外 ， 请 注意 ， 在 贝 叶 斯 Update 中 ， 我 们 以 一 个 似 然 度 乘 以 每 个 先 
验 概率 ， 所 以 如 果 p( 理 ) 为 0，p(H ID ) 也 为 0， 而 不 论 D 是 什么 。 在 欧元 
问题 上 ， 如 果 你 确信 x 小 于 509%， 而 且 指定 其 他 所 有 假设 的 概率 为 0， 那 
么 再 多 的 的 数据 都 将 无 法 说 服 你 。 


这 种 看 法 是 克 伦 威 尔 法 则 的 基础 ， 建 议 是 : 应 当 避 免 设置 任何 一 
个 假设 的 先 验 概 率 为 0， 哪 人 的 确 存 在 这 种 可 能 性 〈 见 
http://en.wikipedia.org/wiki/Cromwell’s_rule ) 。 


克 伦 威 尔 法 则 以 奥利弗 :元 伦 威 尔 命名 ， 他 写 下 了 “我 求 求 你 ， 看 在 
基督 的 份 上 ， 认 为 这 可 能 是 你 是 误会 了 ”。 对 于 贝 叶 斯 方法 ， 这 也 是 个 
好 建议 (即使 有 点 过 上 度 重 视 了 ) 。 














4.7 练习 
练习 4-1。 


假设 不 是 直接 观察 掷 硬 币 ， 而 是 使 用 一 个 不 总 是 正确 的 工具 来 测量 
结果 。 有 具体 地 说 ， 假 设 有 一 个 概率 y 将 实际 正面 报告 为 反面 ， 或 报告 实 
际 反 面 为 正面 。 


编写 一 个 类 来 估计 这 样 一 系列 给 定 了 结果 的 人 硬币 的 偏 置 量 和 值 y ， 
后 验 分 布 的 范围 是 怎样 依赖 于 y 的 ? 


练习 4-2。 


这 项 练习 受到 Reddit 上 一 个 帖子 的 启发 ， 一 位 名 叫 dominosci 
的 “redditor” 在 Reddit 的 统计 小 组 上 提出 了 这 个 问题 。 
http://reddit.com/r/statistics 。 


Reddit 是 一 个 在 线 论坛 ， 有 许多 被 称 为 的 subreddits 的 兴趣 小 组 。 用 
户 被 称 为 redditors，redditor 会 贴 上 网 上 内 容 和 其 他 网 页 的 链接 。 其 他 
redditors 对 此 链接 进行 表决 ， 对 高 质量 的 链接 给 予 “upvote”， 不 好 或 者 是 
不 相关 的 链接 则 给 予 “downvote”。 


Dominosci 提 出 了 这 样 一 个 问题 ， 就 是 redditor 当 中 一 些 人 比 男 一 些 
人 更 可 人 和信， 但 是 Reddit 并 没有 考虑 到 这 个 因素 。 


我 们 的 挑战 是 设计 一 个 系统 ， 当 redditor 做 了 投票 ， 可 以 根据 
redditor 的 可 信和 度 估计 并 且 更 新 链接 的 质量 ， 而 对 该 redditor 的 可 信和 上 度 佑 
计 也 会 依据 这 一 链接 的 质量 被 更 新 。 


一 种 方法 是 将 链接 的 质量 以 赢得 upvote 的 概率 建 模 ，redditor 的 可 信 
度 以 对 高 品质 条 目 给 出 正确 upvote 的 概率 建 模 。 


编写 一 个 类 来 定义 redditors 和 链接 ， 只 要 redditor 投 了 票 ，update 函 
数 对 这 两 个 对 象 进行 更 新 。 











第 5 章 ”胜率 和 加 数 


5.1 胜率 


表示 概率 的 方法 之 一 是 用 0 和 1 之 间 的 数字 ， 不 过 这 并 非 唯一 的 方 
法 s 7 可 能 过 到 概率 的 男 一 种 表示 ， 称 为 胜 
率 (odds) 


你 应 该 听 说 过 例如 “胜率 是 三 比 一 "这样 的 表述 ， 但 也 许 不 知道 含 
义 。 胜 率 是 一 个 事件 可 能 发 生 的 概率 与 不 发 生 的 概率 的 比值 。 


所 以 ， 如 果 认 为 我 的 球 队 有 75%% 的 机 会 获胜 ， 我 会 说 他 们 的 胜率 是 
三 比 一 ， 因 为 获胜 的 机 会 三 倍 于 失败 的 机 会 。 


你 可 以 将 胜率 写成 十 进 制 形式 ， 但 最 常见 的 是 将 其 写成 整数 比 。 
此 “三 比 一 ”被 写成 3:1。 


当 概 率 较 低 ， 通 常 称 为 赔 紊 (odds against) ， 而 不 是 胜率 (odds 
in favor) 。 例 如 ， 如 果 和 觉得 我 的 号 只 有 10% 获 胜 的 机 会 ， 我 会 说 赔 率 


是 9:1。 


概率 和 胜率 是 相同 信息 的 不 同 表示 形式 。 给 定 一 个 概率 ， 你 可 以 这 
样 计算 胜率 ; 








def Odds(p): 
return p / (1-p) 





给 定 (支持 ) 胜率 的 十 进 制 形式 ， 可 以 这 样 将 其 转换 为 概率 : 





def Probability(o): 
return o / (0o+1) 











如 果 你 以 分 子 和 分 母 表 示 胜 率 ， 可 以 像 下 面 这 样 进行 概率 转换 : 


def Probability2(yes, no): 
return yes / (yes + no) 





当 带 着 胜率 思维 工作 时 ， 我 发 现 它 有 助 于 确定 人 们 的 观点 。 如 果 
20% 的 人 认为 我 的 马 赢 ， 那 么 其 余 80% 的 人 当然 束 相 反 ， 因 而 赞成 赔 率 
是 20:80 或 1:4 。 


如 果 我 的 马 启 的 反 辐 赔 率 是 5:1， 那 么 就 是 六 分 之 五 的 人 认为 它 会 
失败 ， 所 以 获胜 的 概率 是 1/6。 


5.2 ” 贝 叶 斯 定理 的 胜率 形式 
在 第 1 章 我 写 出 了 贝 叶 斯 定理 的 概率 形式 : 


p(H)p(DIH) 
p(D) 


如 果 我 们 有 A 和 B 两 个 假设 ， 我 们 可 以 写 出 后 验 概率 的 比值 如 下 : 


p(AID) pL4)p(D|34) 
p(BID) p(B)p(D|B) 


请 注意 等 式 中 出 现 的 标准 化 常数 p (D ) 。 
如 果 A 和 B 是 互 太 且 穷尽 的 ， 就 意味 着 p(B ) = 1-p (A )， 因 此 我 们 可 


I 后 验 的 比率 重 写 为 胜率 。 将 文 持 A 的 可 能 性 写 为 o(A 
)， 得 到 : 





p(H|D)= 














plD|A) 
pl D| B) 





ol AID)=olA) 
在 字面 形式 上 ， 这 说 明了 后 验 赔 率 是 先 验 胜 率 乘 以 似 然 比 。 而 这 正 
是 贝 叶 斯 定理 的 胜率 形式 。 
这 种 形式 相当 适合 在 纸 上 或 者 脑海 中 进行 贝 叶 斯 计算 。 
例如 ， 我 们 回 到 曲 奇 饼 问题 


假设 有 两 碗 曲 奇 饼 。 碗 1 包含 30 个 香草 曲 奇 饼 和 10 个 巧克力 曲 
奇 饼 。 碗 2 包含 两 种 曲 奇 饼 各 20 个 。 


现在 假设 你 随意 选择 了 一 个 碗 ， 然 后 随意 选择 一 个 曲 奇 饼 。 如 
果 是 香草 曲 奇 饼 ， 它 来 目 大 1 的 概率 是 多 少 ? 


先 验 概率 是 50%， 所 以 胜率 是 1:1， 或 就 是 1。 似 然 度 是 3， 或 
3/2。 所 以 后 验 概率 就 是 3:2， 对 应 于 概率 3/5。 





5.3 ”奥利弗 的 血迹 
下 面 是 来 自 麦 凯 的 《信息 理论 、 推 理 和 学 习 》 的 另 一 个 问题 。 


在 一 个 犯罪 现场 ， 有 两 人 遗留 了 血迹 。 一 名 疑犯 奥利弗 经 过 测 
试 发 现 是 “0O” 型 血 。 而 发 现 的 痕迹 中 血型 分 别 是 “0” 型 (一 种 本 地 
人 口 的 常见 血型 ， 有 60% 的 概率 ) 和 “AB” 型 (一 种 罕见 的 血型 ， 
概率 1% ) 。 


那么 这 些 数 据 [现场 发 现 的 痕迹 ] 是 否 文 持 奥 利 弗 是 疑犯 之 一 [在 
现场 遗留 下 血液 证 据 的 人 ]? 


要 回答 这 个 问题 ， 我 们 需要 想 想 “数据 支持 了 假设 ”这 到 底 意 味 着 什 
么 。 直 觉 上 ， 相 比 之 前 如 果 某 一 假设 随 着 数据 的 出 现 而 呈现 更 大 可 能 
性 ， 我 们 就 说 “数据 支持 了 假设 ”。 

在 曲 奇 饼 问题 上 ， 先 验 胜率 是 1:1， 或 者 概率 50% 。 后 验 胜 率 是 
3:2， 或 者 概率 60% 。 因 此 ， 我 们 可 以 说 ， 香 草 曲 奇 饼 这 一 数据 作为 证 
据 支 持 其 来 自 碗 1 的 假设 。 

贝 叶 斯 定理 的 胜率 形式 提供 了 一 种 方法 ， 使 这 种 直觉 更 准确 。 


回顾 一 下 公式 











、 ,PpP(D|A) 
ol AID) 一 Of) 一 
p(D|IB) 
或 除 以 o(A ): 
oAID) p(DIA) 
oA) pp(D|B) 


等 式 左边 是 后 验 胜 率 和 前 验 胜 紊 的 比值 。 右 边 是 似 然 比 ， 也 称 为 由 
叶 斯 因子 。 


如 果 贝 叶 斯 因子 的 值 大 于 1， 则 意味 着 数据 更 可 能 支持 假设 A 而 不 
是 假设 B， 也 意味 着 胜算 更 大 ， 鉴 于 胜率 比 也 大 于 1， 意 味 厦 随 着 数据 








的 出 现 胜率 也 增加 了 。 


如 末 贝 叶 斯 因子 小 于 1， 就 意味 着 数据 文 持 B 的 可 能 大 于 文 持 可 能 A 
， 所 以 支持 A 的 胜率 降低 了 。 


最 后 ， 如 末 贝 叶 斯 因子 恰好 为 1 时 ， 数 据 或 者 假说 有 同等 可 能 ， 所 
以 胜率 不 会 改变 。 


现在 我 们 可 以 回 到 奥利弗 血迹 问题 了 。 如 采 奥 利 弗 是 在 犯罪 现场 留 
下 血迹 的 人 之 一 ， 就 解释 了 那个 “0?” 型 血 证 据 样 本 的 由 来 ， 因 此 数据 的 
概率 就 是 在 人 群 中 随意 挑 中 一 个 “AB” 血 型 人 的 概率 1%。 ® 


如 果 奥 利 弗 没有 在 现场 留 下 血液 ， 我 们 就 要 对 这 两 个 样本 进行 解 
释 。 假 设 在 人 群 中 任 选 两 人 ， 有 多 大 可 能 性 正好 找到 一 个 “OO” 血型 人 和 
一 个 “AB” 血 型 人 ? 咽 ， 两 种 可 能 情况 : 第 一 个 人 是 “0” 型 第 二 个 
是 “AB” 型 ， 或 者 反 过 来 组 合 一 下 。 所 以 总 的 概率 是 2 (0.6)(0.01) = 
1.2%。 


如 末 不 是 奥利弗 的 血液 ， 数 据 的 似 然 度 还 要 稍 高 些 ， 所 以 血液 证 气 
这 个 数据 实际 上 没有 文 持 奥利弗 的 犯罪 嫌疑 。 


这 个 例子 有 刻意 设计 的 成 分 ， 但 它 是 一 个 违反 我 们 目 沉 的 、 符 合 假 
设 的 数据 却 并 非 必 然 支 持 假 设 的 例子 。 


如 果 这 一 结果 如 此 有 悖 常理 甚至 困扰 到 你 ， 下 面 的 思路 可 能 有 些 帮 
助 ， 该 数据 由 一 个 常见 事件 一 一 “0" 型 血 ， 和 一 个 罕见 事件 一 一 “AB* 弄 
血 构成 。 如 果 奥 利 旨 与 常规 事件 相关 《〈O 型 血 ) ， 这 使 得 罕见 的 事件 还 
是 无 法 解释 。 如 果 奥 利 弗 与 常规 事件 无 关 ， 那 么 我 们 有 两 种 可 能 找 
到 “AB" 型 血 的 疑犯 。 两 种 情况 中 的 这 一 因素 导致 了 差别 。 











5.4 加 数 

贝 叶 斯 统计 的 基本 操作 是 Update， 这 需要 先 验 概率 和 一 组 数据 ， 并 
产生 一 个 后 验 分 布 。 但 是 ， 解 决 实际 问题 通常 涉及 许多 其 他 操作 ， 包 括 
缩放 、 加 法 和 其 他 算术 运算 、 最 大 值 和 最 小 值 ， 还 有 混合 计算 。 

本 章 介 绍 加 法 和 最 大 值 ; 在 需要 的 时 候 我 会 介绍 其 他 的 运算 。 


第 一 个 例子 基于 《 龙 与 地 下 城 》 这 个 角色 扮演 游戏 ， 在 这 个 游戏 
里 ， 玩 家 决 倘 的 结果 是 通过 撕 角 子 来 完成 的 。 

事实 上 ， 游 戏 开 始 前 ， 通 过 转动 3 个 6 面 角 子 并 把 结果 相 加 得 到 一 个 
总 和 ， 玩 家 创造 了 自己 角色 的 各 个 属性 ) 力量 、 智 力 、 英 明 、 有 灵巧 、 体 
质 和 魅力 。 

所 以 ， 你 应 该 会 对 总 和 的 分 布 感 兴趣 。 有 两 种 方法 可 以 计算 。 

模拟 : 


给 定 一 个 表示 般 子 面 分 布 的 pmf， 可 以 绘制 随机 样品 ， 把 它们 加 起 
来 ， 素 加 每 次 模拟 求 和 的 分 布 。 


枚 举 : 
给 定 两 个 pmfs， 可 以 枚 举 所 有 可 能 的 数值 对 ， 并 计算 和 的 分 布 。 


thinkbayes 提供 这 两 个 函数 。 下 面 是 第 一 个 方法 的 实现 。 首 抑 ， 
我 定义 一 个 类 来 表示 单个 般 子 : 














class Die(thinkbayes.Pmf) : 


def init (self, sides): 
thinkbayes.Pmf. init (self) 
for x in xrange(1, sides+1): 
self.Set(x, 1) 
self.Normalize() 





现在 ， 可 以 创建 一 个 6 面 般 子 : 


d6 = Die(6) 


然后 使 用 thinkbayes .SampleSum 产生 1000 次 转动 3 个 骨 子 的 样 


dice = [d6] * 3 
three = thinkbayes.SampleSum(dice, 16060) 








SampleSum 以 分 布 的 列表 〈(Pmf 或 Cdf 对 象 ) 和 样本 大 小 n 为 参数 。 
它 产 生 n 次 随机 样本 的 和 《【 单 次 模拟 的 汇总 一 一 转动 3 次 仍 子 ) ， 并 将 
其 分 布 作 为 一 个 Pmf 对 象 返回 。 





def SampleSum(dists, n): 
pmf = MakePmfFromList(RandomSsum(dists) for i in xrange(n)) 
return pmf 





SampleSum 使 用 RandomSum ， 也 在 thinkbayes .py 中 : 


def RandomSum(dists): 
total = sum(dist.Random() for dist in dists) 
return total 





RandomSunm 在 每 个 分 布 中 调用 Random 然后 汇总 其 结果 。 





模拟 的 缺点 是 得 到 的 结果 只 是 近似 正确 的 ， 随 着 n 变 大 ， 结 果 会 更 
准确 ， 但 是 运行 时 间 也 增加 了 。 








另 一 种 方法 是 枚 举 所 有 成 对 的 值 ， 并 计算 每 对 的 概率 和 总 和 。 这 
在 Pmf._add 上 实现 : 


# class Pmf 


def add (self, other): 
pmf = Pmf() 
for v1, pl in self.Items(): 


for v2, p2 in other.Items(): 
pmf.Incr(vlit+v2, pl*p2) 
return pmf 





self 是 一 个 Pmf 对 象 ，other 可 以 是 Pmf 或 其 他 任何 提供 条 目的 对 
象 。 其 结果 是 一 个 新 的 Pmf 对 象 。 运 行 _add _ 的 时 间 取 决 于 self 和 
other 对 象 中 的 条 目的 数量 ， 它 正比 于 len(self)*len(other)。 

下 面 是 如 何 使 用 它 : 


three exact = d6 + d6 + d6 





当 在 Pmf 中 应 用 + 操作 符 时 ，Python 调 用 add  。 在 这 个 例子 
中 ，__add__ 被 调用 了 两 次 。 





图 5-1 显 示 了 通过 模拟 生成 的 近似 结果 和 枚 举 计算 产生 的 确切 结 
果 。 





2 4 6 8 10 12 14 16 18 
3 个 6 面 贷 子 值 的 总 和 值 


图 5-1 ”转动 3 个 6 面 角 子 总 和 值 的 近似 和 确切 分 布 


Pmf. add_ “是 基于 这 样 的 假设 ， 来 自 每 个 Pmf 的 随机 选择 是 独立 
的 。 在 投 描 多 个 角子 的 例子 中 ， 这 个 假设 相当 不 错 。 其 他 情况 下 我 们 则 
必须 扩展 这 个 方法 以 使 用 条 件 概率 。 


从 本 节 中 的 代码 可 以 从 http:Nthinkbayes.com/dungeons.py 获得 。 更 
多 信息 请 参见 前 言 的 “代码 指南 ”。 





5.5 最 大 化 


当 你 生成 一 个 《 龙 与 地 下 城 》 的 角色 ， 会 对 人 物 的 最 佳 属性 特别 有 
兴趣 ， 所 以 你 可 能 想 知道 属性 值 分 布 的 最 大 值 。 


有 三 种 方法 来 计算 一 个 最 大 值 的 分 布 。 
模拟 : 


给 定 一 个 Pmf， 代 表单 一 选择 的 分 布 ， 可 以 生成 随机 样本 ， 找 到 最 
大 值 和 模拟 最 大 值 的 累积 分 布 。 


枚 举 : 
给 定 两 个 Pmf， 可 以 枚 举 所 有 可 能 的 数值 对 ， 并 计算 分 布 的 最 大 











指数 计算 : 

如 果 我 们 将 一 个 Pmf 转 换 为 Cdf， 有 一 个 简单 而 有 效 的 算法 查找 最 大 
的 Cdf 〈 看 后 面 ) 。 

模拟 最 大 值 的 代码 与 模拟 求 和 的 代码 几乎 相同 : 


def RandomMax(dists) : 
total = max(dist.Random() for dist in dists) 
return total 

def SampleMax(dists, n): 


pmf = MakePmfFromList(RandomMax(dists) for i in xrange(n)) 
return pmf 








我 所 做 的 只 是 用 “max” 蔡 换 “sum”。 而 对 于 枚 举 部 分 代码 几乎 是 相同 


def PmfMax(pmf1, pmf2): 
res = thinkbayes.Pmf() 


for v1i, pl in pmf1.Items() : 
for v2, p2 in pmf2.Items() : 
res.Incr(max(v1i, v2), pl*p2) 
return res 





事实 上 ， 你 可 以 将 操作 符 作 为 参数 来 一 般 化 这 个 函数 。 


算法 的 唯一 问题 是 ， 如 采 每 个 Pmf 具 有 m 个 值 ， 运行 时 间 正 比 
。 如 果 我 们 想 知道 k 个 选择 的 最 大 值 ， 需要 的 时 间 正 比 于 km* 


如 果 我 们 转换 Pmfs 到 Cdfs， 我 们 可 以 以 更 快 的 速度 进行 同样 的 计 
算 ! 关键 是 要 记 住 累积 分 布 函数 的 定义 : 


CDF(T)= p(X <I) 


其 中 X 古 一 个 随机 变量 ， 它 的 意思 是 “从 分 布 中 随机 选取 的 一 个 
0 0 0 








如 果 我 从 CDF ; 中 取出 X， 从 CDF , 中 取出 YY， 计 算 最 大 2Z =max (X 
，Y)， 则 2 小 于 或 等 于 5 的 可 能 性 是 多 少 ? 当然 ， 在 这 个 案例 里 面 ，X 
和 Y 必须 小 于 或 等 于 5。 


如 果 选 择 X 和 Y 是 独立 行为 ， 
CDF3(5) = CDFI(S5)ICDF(5) 


其 中 CDF 3 是 Z 的 分 布 。 我 选择 了 5 这 个 值 让 公式 容易 阅读 ， 但 我 们 
可 以 一 般 化 为 z 古 任意 值 的 情况 : 





CDFaz) = CDF(z)CDPF,(z) 
有 一 个 特例 是 我 们 从 同一 个 分 布 中 选择 k 值 ， 
CDF(z) = CDFI(z) 


因此 ， 为 了 求 K 的 最 大 值 的 分 布 ， 我 们 可 以 枚 举 给 定 Cdf 的 概率 再 将 


其 变化 为 k 次 荔 。Cdf 提供 了 一 种 方法 ， 该 方法 如 下 : 


# class Cdf 


def Max(self, k): 
cdf = self.Copy() 


cdf.ps = [p**k for p in cdf.ps] 
return cdf 





Max 方法 接受 选取 的 次 数 k ， 然 后 返回 一 个 新 的 表示 进行 k 次 选择 
最 大 值 的 Cdf。 此 方法 的 运行 时 间 正 比 于 Cdf 中 的 条 目 个 数 m 。 


Pmf.Max 和 Pmfs 实 现 同样 的 功能 内 是 将 Pmf 转 换 到 Cdf 必 须要 多 
做 二 着 开 人 5 所 以 运行 时 间 成 正比 于 miogm 但 是 这 仍然 要 好 过 于 呈 平 
方 复 杂 度 的 运行 时 间 。 


最 后 ， 这 里 有 一 个 计算 角色 的 最 佳 属性 的 分 布 的 范例 : 














best attr cdf = three exact.Max (6) 
best attr pmf = best attr cdf.MakePpmf () 





其 中 three_exact 是 上 一 节 定 义 过 的 。 如 果 我 们 打印 出 结果 ， 将 
看 到 产生 一 个 有 18 属 性 值 的 角色 的 概率 大 约 是 3%。 





图 5-2 显 示 了 分 布 O 
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5.6 ”混合 分 


让 我 们 考虑 一 个 来 自 《 龙 与 地 下 城 》 的 例子 。 假 设 我 有 一 盒 般 子 ， 
清单 如 下 : 


4 面 般 子 





从 盒子 中 选择 一 个 散 子 转动 ， 结 果 会 呈现 什么 分 布 呢 ? 


如 琳 你 知道 选 到 的 是 哪个 骨 子 ， 管 采 很 简单 。n 面 的 般 子 产生 一 个 
均匀 的 从 1 到 n 的 分 布 ， 包 括 1 和 n 。 


但 是 ， Ns i 
是 有 不 同上 界 的 均匀 分 布 的 混合 分 


在 一 般 情况 下 ， 这 类 混合 量 不 适合 任何 简单 的 数学 模型 ， 但 它 可 以 
从 对 PMF 的 直接 计算 得 到 。 
与 往常 一 样 ， 一 个 选择 是 模拟 ， 生 成 一 个 随机 样本 计算 模拟 样本 的 


PMF。 这 种 方法 很 简单 ， 它 会 快速 得 到 一 个 近似 的 结果 。 但 是 ， 如 果 想 
要 确切 的 解法 ， 我 们 需要 一 种 不 同 的 方法 。 


让 我 们 从 只 有 两 个 角子 的 简 蛙 版 本 开始 ， 一 个 6 面 角 和 一 个 8 面 角 。 
我 们 可 以 用 Pmtf 来 表示 每 个 股子 : 











d6 =Die(6) 
d8 =Die (8) 





然后 我 们 创建 一 个 Pmf 表 示 这 一 混合 分 布 : 


mix = thinkbayes.Pmf() 
for die in [d6，d8]: 
for outcome, prob in die.Items() : 
mix.Incr(outcome, prob) 


mix.Normalize() 





第 一 个 循环 枚 举 般 子 ， 第 二 个 循环 枚 举 循环 骨 子 结果 和 概率 。 在 循 
环 内 部 ，Pmf.Incr 汇总 了 两 个 分 布 的 贡献 。 


此 代码 假定 选中 两 个 角 子 是 同等 可 能 的 。 更 一 般 地 ， 我 们 需要 知道 
选中 每 一 个 般 子 的 概率 ， 以 便 可 以 对 结果 进行 对 应 的 加 权 。 


首先 ， 我 们 创建 一 个 映 冉 了 散 子 和 骨 子 被 选中 概率 的 Pmf 对 象 : 


pmf_dice = thinkbayes.Pmf() 
pmf_dice.Set(Die(4), 2) 
pmf_dice.Set(Die(6), 3) 
pmf_dice.Set(Die(8), 2) 
pmf_dice.Set(Die(12), 1) 
pmf_dice.Set(Die(260), 1) 
pmf_ dice.Normalize() 





接 下 来 ， 我 们 需要 计算 混合 分 布 算法 的 一 个 更 通用 的 版 本 : 


mix = thinkbayes.Pmf() 
for die, weight in pmf dice.Items(): 
for outcome, prob jin die.Items(): 


mix.Incr(outcome, weight*prob) 








现在 每 个 般 子 部 有 相关 联 的 权重 了 (意味 着 散 子 有 了 权 值 〉。 


当 将 每 个 结果 添加 到 混合 分 布 中 ， 其 概率 乘 以 权重 ， 得 到 了 图 5-3 
所 示 的 结果 。 正 如 预期 的 那样 ，1 至 4 是 最 有 可 能 的 ， 因 为 每 一 个 骨 子 都 


可 以 生成 这 些 值 。12 以 上 的 值 可 能 性 不 大 ， 因 为 只 有 一 个 20 面 角子 能 
、 (即使 是 20 面 角 子 ， 要 产生 这 样 值 的 可 能 性 也 都 不 到 一 
关 ) 。 


0.18 








0.16 





图 5-3 ”从 盒子 中 随机 选中 骨 子 的 结果 分 布 


thinkbayes 提供 了 一 个 名 为 MakeMixture 的 函数 ， 它 封装 了 该 算 
法 的 功能 ， 所 以 我 们 把 计算 过 程 写成 : 


mix = thinkbayes.MakeMixture (pmf_dice) 








我 们 将 在 第 7 章 和 第 8 章 再 次 使 用 MakeMixture 。 


5.7 讨论 


除了 贝 叶 斯 定理 的 赔 率 形式 ， 这 一 章 不 是 专门 关于 贝 叶 斯 的 。 但 贝 
叶 斯 分 析 的 一 切 都 和 分 布 有 关 ， 所 以 了 解 分 布 的 概念 很 重要 。 以 计算 的 
观点 来 看 ， 分 布 就 是 可 以 表示 任意 一 组 值 〈 一 个 随机 过 程 的 可 能 结果 ) 
和 其 概率 的 数据 结构 。 


我 们 已 经 看 到 了 分 布 的 两 种 表示 形式 : Pmfs 和 Cdfs。 在 包含 了 相同 
信息 这 一 点 上 上， 它们 是 等 价 的 ， 这 样 你 就 可 以 从 一 个 转换 到 另 一 个 。 它 
们 之 间 的 主要 区 别 在 于 性 能 ， 有 些 运算 采用 Pmf 更 快 、 更 容易 ， 另 一 些 
则 是 采用 Cdf 更 快 。 


本 章 的 男 一 个 目标 是 引入 一 些 概率 分 布 运算 操作 ， 像 Pmf.__add__ 
，Cdf.Max 和 thinkbayes .MakeMixture 。 后 续 我 们 将 使 用 这 些 运 
算 ， 但 这 里 ， 我 介绍 的 目的 是 鼓励 大 家 将 分 布 作 为 概率 计算 的 基石 进行 
深入 思考 ， 而 不 仅仅 是 将 其 当 作 一 个 值 和 概率 的 容器 。 




















译注: odds 经 常 被 直观 但 不 严 课 地 称 为 赔 率 〈 这 与 博彩 业 有 关 ， 博 彩 
业 就 荣 一 事件 的 赔 率 严 格 说 是 大 于 1 的 ， 人 否则 不 赚钱 ) ， 事 实 上 odds 是 


机 会 的 意思 。 


地 译注 : 记 住 数 据 包括 两 个 因素 ，O 型 血 和 AB 型 血 的 现场 证 据 。 





第 6 章 ”决策 分 析 
6.1 “正确 的 价格 ”问题 


2007 年 11 月 1 日 ， 选 手 莱 希 娅 和 纳 撒 尼 尔 参 加 《正确 的 价格 》 这 个 
美国 电视 游戏 节目 。 他 们 在 名 为 showcase 的 游戏 环节 中 比赛 ， 游 戏 主题 
是 猜 展 示 奖 品 的 价格 。 猜 测 到 最 接近 展示 品 实际 价格 的 选手 将 赢得 奖 
口 


HO 





纳 撒 尼 尔 先 开始 。 他 的 展品 里 面包 括 洗 碗 机 、 酒 想 、 笔 记 本 计算 机 
和 一 辆 汽车 。 他 出 价 26000 美 元 。 


沫 希 娅 的 展品 包括 弹 球 机 、 视 频 游戏 、 人 台球 昌 和 一 次 去 巴哈马 的 旅 
行 。 她 出 价 21500 美 元 。 


纳 撒 尼 尔 展品 的 实际 价格 为 25347 美 元 。 由 于 出 价 太 高 他 输 掉 了 比 


莱 希 妍 的 展品 的 实际 价格 为 21578 美 元 。 比 起 实际 价格 她 只 少 猜 了 
78 关 元 所 以 局 得 了 比赛 。 而 且 因 为 她 的 出 价 兰 少 于 250 关 元 ， 她 还 局 得 
了 纳 撤 尼 和 尔 的 展品 。 

对 一 个 具备 贝 叶 斯 思维 的 人 ， 这 一 场景 暗示 出 的 几 个 问题 是 : 


在 看 到 奖品 前 ， 选 手 对 展示 品 的 价格 应 该 有 什么 样 的 先 验 分 布 
#)] Wr ? 


2. 看 到 奖品 后 ， 选 手 应 该 如 何 修 正 这 些 预 期 ? 

3. 基于 后 验 分 布 ， 选 手 应 该 怎么 出 价 ? 

第 三 个 问题 ， 论 证 了 贝 叶 斯 分 析 的 一 个 前 见 用 途 ， 决策 分 析 。 给 定 
jn 我 们 可 以 选择 出 价 多 少 ， 从 而 最 大 限度 地 提高 选手 的 预 
期 收益 。 

这 个 问题 来 自 卡 梅 伦 : 戴 维 森 - 皮 隆 的 《Bayesian Methods 





forhackers》 一 书 。 我 为 本 章 书 写 的 代码 可 从 
http:/thinkbayes.com/price.py 得 到 ; 输入 的 数据 可 以 从 
http://thinkbayes.com/showcases.2011.csv 和 
http:/thinkbayes.com/showcases.2012.csv 下 载 。 更 多 信息 请 参考 前 言 
的 “代码 指南 ”。 





NS 


6.2” 先 验 概 率 


为 了 选择 价格 的 先 验 分 布 ， 我 们 可 以 利用 先前 的 数据 。 幸 运 的 是 ， 
这 个 节目 的 粉丝 详细 记录 了 这 些 数据 。 当 我 与 戴维森 - 皮 隆 先生 就 本 书 
通信 时 ， 他 提供 了 史 带 夫 : 吉 收集 的 数据 http:Wtpirsummaries.8m.com 。 
它 包 括 了 从 2011 年 到 2012 年 的 节目 中 每 个 展品 环节 的 价格 ， 还 有 参赛 选 
手 就 展品 提供 的 出 价 。 

图 6-1 显 示 了 这 些 展 品 价格 的 分 布 。 最 常见 的 展品 价值 大 约 是 28000 
美元 ， 但 是 第 一 组 展品 在 50000 美 元 附近 有 个 第 二 特征 〈( 线 图 稍微 隆起 
的 地 方 ) ， 第 二 组 展品 的 价格 偶尔 会 超过 70000 美 元 。 
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图 6-1 “正确 的 价格 ”节目 中 展品 价格 的 分 布 ，2011-2012 
些 分 布 基于 实际 的 数据 ， 但 用 高 斯 内 核 密度 估计 进行 了 平滑 





[ey 


(KDE) 。 在 我 们 继续 之 前 ， 我 想 绕 道 先 去 谈 谈 概率 密度 函数 和 KDE。 





6.3 ”概率 密度 函数 


到 目前 为 止 ， 我 们 已 经 和 概率 质量 函数 或 PMF 打 了 很 多 交道 。PMF 
是 从 每 一 个 可 能 值 到 其 概率 的 映射 。 eS 
个 Prob 方法 获得 值 和 概率 ， 也 被 称 为 概率 质量 


在 数学 表示 上 ，PDF 通 闻 写 成 一 个 函数 ; 例如， 这 里 是 均值 为 0， 
标准 偏差 为 1 的 蜗 斯 分 布 的 PDF: 








| 一 了 /2) 


] 
f(z)= 
Ve 





对 于 一 个 给 定 的 x 值 ， 这 个 函数 可 以 计算 出 概率 密度 。 在 更 高 的 密 
度 说 明 可 能 性 也 高 这 个 意义 上 ， 密 度 和 概率 质量 是 相似 的 。 


但 是 密度 不 是 概率 。 密 度 可 以 是 0 或 任何 正 值 ， 并 非 如 概率 那样 在 0 
和 1 之 间 有 界 。 


如 果 你 在 一 个 连续 区 间 对 密度 进行 积分 ， 其 结果 是 一 个 概率 。 但 在 
本 书 中 ， 我 们 很 少 这 么 用 。 


相反 ， 我 们 主要 利用 概率 密度 作为 似 然 函 数 的 一 部 分 。 下 面 马 上 会 
看 到 一 个 例子 。 











6.4 ”PDF 的 表示 

要 在 Python 中 表示 PDF，thinkbayes .py 提供 一 个 名 为 PDF 的 
类 。PDF 是 一 个 抽象 类 ， 这 意味 着 它 定义 了 PDF 接 口 ， 但 不 提供 一 个 完 
整 的 实现 。PDF 接 口 包括 两 种 方法 ，Density 和 MakePmf : 


class Pdf(object): 


def Density(self, x): 
raise UnimplementedMethodException() 


def MakePpmf(self, xs): 
pmf = Pmf() 
for x in xs: 
pmf.Set(x, self.Density(x)) 
pmf.Normalize() 
return pmf 





Density 取 一 个 x 值 ， 并 返回 相应 的 密度 。Makepmf 生成 PDF 的 近 
似 离 散 值 。 

Pdf 提供 了 makepmf 的 实现 ， 而 没有 Density 方法 ，Density 方法 
必须 通过 子 类 来 提供 。 


实体 类 是 继承 自 抽 象 类 的 一 个 子 类 ， 它 提供 了 缺失 方法 的 具体 实 
现 。 例 如 ，GaussianPdf 扩展 了 Pdf 并 提供 了 Density 方法 : 


class Gaussianpdf(Pdf): 
def _ init (self, mu, sigma): 


self.myu = mu 
self.sigma = sigma 


def Density(self, x): 
return scipy.stats.norm.pdf(x, self.mu, self.sigma) 





init_ 接受 mu 和 sigma 参数 ， 分 别 代表 分 布 的 平均 值 和 标准 偶 
， 并 作为 属性 值 存 下 来 。 


Density 使 用 scipy.stats 中 的 一 个 函数 来 评估 高 斯 PDF。 这 个 
函数 是 norm.pdf ， 因 为 高 斯 分 布 也 称 为 “ 正 态 ”分 布 。 


高 斯 PDF 由 一 个 简单 的 数学 函数 定义 ， 所 以 容易 求 值 。 而 且 由 于 现 
实 世 界 中 大 量 的 分 布 都 可 以 近似 为 高 斯 分 布 ， 它 的 用 处 也 很 大 。 


但 对 于 真实 数据 ， 并 不 能 保证 分 布 是 高 斯 或 任何 其 他 的 简单 数学 函 
数 。 在 这 种 情况 下 ， 我 们 可 以 用 一 个 样本 来 估计 整体 的 PDF。 
例如 ,“ 正 确 的 价格 ?中 的 数据 ， 我 们 有 313 个 第 一 组 展品 的 价格 。 
我 们 可 以 认为 这 些 值 是 展品 价格 的 一 个 样本 。 
该 示例 包括 以 下 值 〈 按 顺序 ) : 
28800, 28868, 28941, 28957, 28958 


在 样品 中 ， 没 有 出 现 28801 和 28867 之 间 的 值 ， 但 是 没有 理由 认为 这 
些 值 不 存在 。 基 于 我 们 的 背景 信息 ， 我 们 希望 在 这 个 范围 内 的 所 有 值 有 
同等 可 能 。 换 句 话 说 ， 我 们 预计 PDF 是 非常 平滑 的 。 


内 核 密 度 估 计 〈KDE) 是 一 种 算法 ， 从 样本 找到 一 个 恰当 平滑 的 
PDF 进行 数据 拟 合 。 你 可 以 从 
http://en.wikipedia.org/Wiki/Kernel_density_estimation 了 解 到 一 些 细 节 。 











Scipy 提供 了 KDE 的 实现 ，thinkbayes 则 提供 了 一 个 Estimated 
Pdf 类 使 用 它 : 
class Estimatedpdf(Pdf): 


def init (self, sample): 
self.kde = scipy.stats.gaussian kde(sample) 


def Density(self, x): 
return self.kde.evaluate(x) 





_ init__ 采集 样本 计算 内 核 密度 估计 。 其 结果 是 一 
个 gaussian_kde 对 象 ， 并 提供 了 一 个 evaluate 方法 。 


Density 接收 数据 ， 调 用 gaussian_kde.evaluate ， 然 后 返回 密 
度 结果 。 


最 后 ， 这 是 生成 的 代码 主干 : 


prices = ReadDatal() 
pdf = thinkbayes.EstimatedPdf(prices) 


low, high = 6，75666 

n = 161 

xs = numpy.linspace(low, high, n) 
pmf = pdf.Makepmf(xs) 





pdf 是 一 个 由 KDE 估 算 的 Pdf 对 象 ，pmf 则 是 一 个 近似 于 Pdf 的 Pmf 
对 象 ， 它 通过 在 成 序列 的 等 间距 区 间 上 的 求 密度 值 实现 。 

linspace 表示 “线性 空间 ”的 意思 。 它 接收 一 个 由 low 和 high 界定 
的 区 间 ， 以 及 区 间 内 的 n 个 数据 点 ， 并 返回 一 个 新 的 numpy 数组 ， 访 数 
组 包含 了 n 个 low 和 high 间 的 等 间距 元 素 。 


现在 回 到 “正确 的 价格 ”问题 。 





6.5 ”选手 建 模 


图 6-1 的 PDF 估 计 了 展品 可 能 的 价格 分 布 。 如 果 你 是 一 个 参加 市 目的 
选手 ， 你 可 以 使 用 这 个 分 布 来 量化 每 次 展品 环节 中 的 先 验 信念 《在 看 到 
外 


口 
奖品 前 


要 更 新 这 些 先 验 概率 ， 我 们 必须 回答 下 面 这 些 问 题 : 
1. 怎么 看 竺 数据 以 及 如 何 量 化 数据 ? 


2. 怎么 计算 似 然 函 数 ? 即 ， 对 于 每 个 价格 给 出 什么 样 的 假设 值 ， 
怎么 计算 数据 的 条 件 似 然 度 ? 


为 了 回答 这 些 问题 ， 人 
来 建 模 。 换 句 话说 ， 当 选手 看 到 每 组 展品 猜 单个 奖品 的 价 
虑 奖品 是 展品 一 部 分 这 一 事实 〈 也 就 是 不 考虑 总 量 ) 再 把 这 些 价格 
加 起 来 ， 得 到 的 总 和 称 为 猜测 价格 guess 。 


在 这 一 模型 下 ， 我 们 必须 要 回答 的 问题 是 “如 果实 际 价格 是 price 
， 选 手 的 估计 价格 就 是 猜测 价格 guess 的 似 然 度 ? ” 


如 果 我 们 定义 : 























error = price - guess〔 猜 测 误差 = 展品 价格 - 猜测 价格 ) 








然后 ， 我 们 可 以 提出 问题 “选手 的 估计 价格 背离 猜测 误差 error 的 
似 然 度 是 什么 ? ” 


要 回答 这 个 问题 ， 我 们 要 再 次 使 用 历史 数据 。 图 6-2 显 示 了 diff 的 
累积 分 布 ，diff 是 参赛 者 的 出 价 和 展示 的 实际 价格 间 的 差 。 








0.0 - 
一 30000--20000--10000 0 10000 20000 30000 40000 50000 
出 价差 C$ ) 





图 6-2 ”选手 出 价 和 实际 价格 差 ， 即 出 价差 diff 的 累积 分 布 (CDF) 


出 价差 diff 的 定义 是 : 





diff = price - bid (出 价差 = 奖品 价格 - 选手 出 价 ) 





当 diff 的 值 是 负 的 ， 出 价 就 太 高 。 男 一 方面 ， 我 们 可 以 使 用 这 个 
分 布 计 算 参 赛 者 出 价 过 高 的 概率 : 第 一 组 选手 当中 出 高 价 的 比例 是 
25%; 第 二 组 选手 当中 出 高 价 的 比例 是 29%。 


我 们 也 可 以 看 到 出 价 是 不 对 称 的 ;， 即 选手 更 倾向 出 低 价 。 由 于 游戏 
规则 这 很 好 理解 。 


最 后 ， 我 们 可 以 使 用 这 个 分 布 估计 参赛 者 猜测 价格 的 可 徘 性 〈 译 


注 : 由 猜测 误差 衡量 的 ) 。 步 有 点 琼 手 ， 因 为 我 们 真 不 知道 选手 的 
猜测 价格 ， 只 知 道 他 们 的 出 价 。 


因此 我 们 必须 做 出 一 些 假设 。 确 切 地 说 是 认为 error 的 分 布 是 一 个 
和 diff 方差 相同 ， 均 值 为 0 的 高 斯 分 布 。 





class Player(object): 


def init (self, prices, bids, diffs): 
self.pdf price = thinkbayes.EstimatedPdf(prices) 
self.cdf diff = thinkbayes.MakeCdfFromList(diffs) 
mu = 0 
sigma = numpy.std(diffs) 
self.pdf_error = thinkbayes.Gaussianpdf(mu, sigma) 





prices 是 一 个 展品 价格 的 序列 ，bids 是 一 个 选手 出 价 的 序 
列 ，diffs 是 一 个 出 价差 的 序列 ，diff =price-bid 。 


pdf_price 是 一 个 价格 的 平滑 PDF， 由 KDE 给 出 。cdf_diff 是 出 
价差 的 累积 分 布 ， 如 图 6-2 所 示 。pdf_error 是 猜测 误差 分 布 的 PDF， 
这 里 猜测 误差 = 展品 价格 -猜测 价格 (error=price-guess ) 。 


再 强调 一 下 ， 我 们 使 用 diff 的 方 兰 估 计 error 的 方差 ， 这 并 不 完 

美 。 因 为 选手 的 报价 有 时 是 有 策略 的 。 例 如 ， 如 果 选 手 2 认 为 选手 1 出 了 
高 价 ， 选 手 2 可 能 会 使 用 一 个 非常 低 的 报价 。 在 这 种 情况 下 出 价差 diff 

eR 如 采 发 生 稚 多 这 种 情况 ， 观测 到 的 diff 
高 估 猜 测 误差 error 的 方差 。 然 而 ， 我 认为 这 是 一 个 合理 的 建 








准备 参赛 的 人 可 以 通过 看 以 前 的 比赛 ， 记 录 下 自己 猜测 价格 和 实际 
价格 的 猜测 误差 ， 从 而 评估 自己 猜测 误差 error 的 分 布 。 


0. 0 似 然 度 
现在 我 们 准备 好 编写 似 然 函数 了 。 像 通常 那样 ， 定 义 一 个 新 类 : 


class Price(thinkbayes.Suite): 
def _ init (self, pmf, player): 
thinkbayes.Suite. init (self, pmf) 


self.player = player 





pmf 代表 了 先 验 分 布 ，player 是 一 个 前 面 章节 定义 的 Player 对 
象 。Likelihood 如 下 : 


def Likelihood(self, data, hypo): 
price = hypo 
guess = data 


error = price - guess 
like = self.player.ErrorDensity(error) 


return like 








hypo 是 展 不 价 格 的 假设 。 data 是 选 于 的 最 佳 猜 测 价格 。error 是 他 
们 的 差 ，1ike 是 给 定 假设 后 数据 的 可 能 性 。 


ErrorDensity 在 Player 中 定义 : 


# class Player: 
def ErrorDensity(self, error): 
return self.pdf error.Density(error) 





ErrorDensity 通过 给 定 值 的 错误 来 评估 pdf_error ， 结 果 是 概率 





密度 。 因 此 它 并 不 是 真是 一 个 概率 。 但 请 记 住 Likelihood 不 需要 计算 
概率 ; 它 只 需要 计算 比例 ， 只 要 所 有 1ikelihood 的 比例 系数 是 相同 
的 ， 我 们 对 后 验 分 布 进行 归 一 化 后 就 没 问 题 了 。 


所 以 说 概率 密度 是 一 个 相当 好 的 似 然 度 方法 。 


6.7 更 新 
player 提供 了 一 个 方法 以 选手 的 猜测 来 计算 后 验 分 布 : 





# class Player 


def MakeBeliefs(self, guess): 
pmf = self.PmfPrice() 
self.prior = Price(pmf, self) 


self.posterior = self.prior.Copy() 
self.posterior.Update(guess) 





PmfPrice 生成 PDF 的 离散 近似 价格 ， 我 们 用 其 构建 先 验 概率 。 
PmfPrice 使 用 MakePmf ， 评 估 pdf_price 序列 的 值 : 


# class Player 


n = 161 
price _ xs = numpy.1Linspace(6，756600，n) 


def PmfPrice(self) : 
return self.pdf price.Makepmf(self.price xs) 





为 了 得 到 后 验 概率 ， 我 们 先 复制 先 验 概 率 ， 然 后 调用 Update， 
Update 在 每 次 假设 中 调用 Likelihood 一 次 ， 用 先 验 乘 以 似 然 度 ， 最 
后 归 一 化 。 


让 我们 回 到 最 初 的 场景 。 假 设 你 是 选手 1， 当 看 到 展品 后 你 最 佳 的 
猜测 是 “奖品 的 总 价格 是 20000 美 元 ”。 


图 6-3 显 示 了 实际 价格 的 先 验 概 率 和 后 验 概率 。 后 验 概 率 俩 左 些 ， 
因为 你 猜测 的 是 先 验 概率 的 低 值 区 间 。 
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实际 价格 ($ 
图 6-3 ”基于 一 个 20000 美 元 价格 的 最 佳 猜 测 ， 选 手 1 的 前 验 和 后 验 分 布 


在 某 种 程度 上 这 个 结果 是 有 意义 的 。 在 先 验 上 最 有 可 能 的 展品 价格 
Ee 你 最 好 猜测 是 20000 美 元 ， 而 后 验 概率 的 均值 在 25096 
Ts 


而 从 另 一 个 角度 上 ， 你 可 能 会 发 现 这 个 结果 的 悖 论 ， 因 为 它 表 明 如 
果 你 认为 价格 是 20000 美 元 ， 那 么 在 考虑 猜测 误差 的 情况 下 ， 你 应 该 相 
信 价 格 是 24000 美 元 。 


要 想 解 决 这 个 明显 的 矛盾 ， 请 记 住 你 结合 了 两 个 信息 来 源 ， 过 去 展 
品 的 历史 数据 和 你 看 到 奖品 后 作出 的 猜测 。 


我 们 把 之 前 的 历史 数据 当 作 先 验 概率 和 然后 基于 你 的 猜测 去 修正 
它 。 但 同样 的 ， 我 们 也 可 以 用 你 的 猜测 作为 先 验 而 把 基于 历史 的 数据 进 
行 修正 (译注: 修正 和 更 新 都 是 Update 的 意译 ， 结 合 上 下 文 使 用 ) 。 





| 


最 有 可 能 的 展品 价格 并 不 是 你 最 初 的 猜测 


或 者 你 可 以 这 么 思考 
于 是 这 一 点 也 就 没 那么 奇怪 了 。 


值 


6.8 ”最 优 出 价 


现在 我 们 有 一 个 后 验 分 布 ， 我 们 可 以 使 用 它 来 计算 最 优 报价 ， 我 定 
义 为 预期 收益 最 大 化 的 报价 《〈 见 
http://en.wikipedia.org/wiki/Expected_return ) 。 


我 将 在 本 节 中 采用 目 顶 回 下 的 方法 ， 这 意味 着 我 将 移 演示 怎么 使 
用 ， 再 演示 为 什么 如 此 。 如 果 你 看 到 一 个 陌生 的 方法 ， 不 要 担心 ， 后面 


为 计算 最 优 报 价 ， 我 写 了 一 个 类 称 为 GainCalculator : 


class GainCalculator(object): 


def _init (self, player, opponent): 
self.player = player 
self.opponent = opponent 





Player 和 opponent 都 是 Player 对 象 。 


GainCalculator 提供 ExpectedGains ， 为 每 次 出 价 计算 投标 序 
列 和 预期 收益 : 


def ExpectedGains(self，1low=6，high=75660，n=161) : 
bids = numpy.linspace(low, high, n) 


gains = [self.ExpectedGain(bid) for bid in bids] 


return bids, gains 





low 和 high 表示 了 出 价 可 能 的 区 间 ; n 是 报价 的 次 数 。 


ExpectedGains 调用 ExpectedGain ， 计 算 对 于 一 个 给 定 的 报价 


的 预期 值 : 


def ExpectedGain(self, bid): 
suite = self.player.posterior 
total = 6 
for price, prob in sorted(suite.Items() ) : 
gain = self.Gain(bid, price) 


total += prob * gain 
return total 





ExpectedGain 人 遍历 后 验 概率 的 值 ， 给 定 展品 的 实际 价格 后 计算 每 
次 出 价 的 回报 。 它 针对 概率 进行 加 权 计 算 然 后 返回 总 和 。 


ExpectedGain 调用 Gain ，Gain 通过 报价 和 实际 价格 返回 预期 收 





隶 


def Gain(self, bid, price): 
if bid > price: 
return 9 


diff = price - bid 
prob = self.ProbWin(diff) 


if diff <= 256: 

return 2 * price * prob 
else: 

return price * prob 





如 果 你 出 价 蜗 了 将 一 无 所 获 。 反 过 来 ， 我 们 计算 出 价 和 价格 的 差 ， 
这 个 决定 了 你 获胜 的 概率 。 


如 果 差 异 小 于 250 美 元 你 束 启 了 。 为 简单 起 见 ， 我 假设 展品 有 相同 
的 价格 。 因 为 这 个 结果 是 罕见 的 ， 造 成 的 差别 不 大 。 


最 后 ， 我 们 要 基于 diff 计算 的 赢 的 概率 : 


def ProbWin(self, diff): 
prob = (self.opponent.ProbOverbid() + 


self.opponent.ProbWorseThan(diff)) 
return prob 





如 果 你 的 对 手 出 价 高 ， 你 赢 。 否 则 的 话 ， 你 必须 希望 你 的 对 手 的 出 
老大 于 这 个 diff 值 ，Player 提供 了 一 些 方法 来 计算 这 两 个 可 能 性 : 


价 


# class Player: 


def ProbOverbid(self): 
return self.cdf diff.Prob(-1) 
def ProbWorseThan(self, diff): 
return 1 - self.cdf diff.Prob(diff) 











这 段 代 码 可 能 有 些 令 人 疑惑 ， 因 为 这 一 计算 过 程 是 以 对 手 的 角度 进 
行 的 ， 对 手 计 算 的 正 是 “我 出 高 价 的 可 能 性 是 多 少 ??” 和 “我 的 出 价差 超过 
diff 的 概率 是 多 少 ?” 


两 种 答案 都 是 基于 diff 的 CDF。 如 果 对 手 的 差异 小 于 或 等 于 1， 你 
顾 。 如 果 对 手 的 diff 比 你 大 ， 你 顾 。 售 则 你 输 。 


最 后 ， 计 算 最 优 报 价 的 代码 : 
# class Player: 


def OptimalBid(self, guess, opponent): 
self.MakeBeliefs(guess) 
calc = GainCalculator(self, opponent) 


bids, gains = calc.ExpectedGains() 
gain, bid = max(zip(gains, bids)) 
return bid, gain 





给 定 一 个 对 手 和 guess，0ptimalBid 将 计算 出 后 验 分 布 ， 实 例 化 一 
个 GainCalculator 计算 各 种 投标 可 能 区 间 的 预期 收益 回报 并 返回 最 优 
报价 和 预期 收益 。 太 棒 了 ! 


图 6-4 显 示 了 基于 这 样 一 个 场景 下 的 结果 ， 选 手 1 的 最 佳 猜测 是 
20000 美 元 ， 选 手 2 的 猜测 是 40000 美 元 。 
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图 6-4 ”当选 手 1 的 最 佳 猜测 是 20000 美 元 ， 选 手 2 的 最 佳 猜测 是 40000 美 元 时 ， 预 期 收益 的 对 照 。 
选手 1 的 最 优 报价 是 21000 美 元 ， 产 生 近 16700 美 元 的 预期 回报 。 


这 是 一 个 显得 很 不 寻常 的 最 优 报价 其 实 比 选手 的 最 佳 猜测 高 一 点 的 
案例 。 


选手 2 的 最 优 报价 是 31500 美 元 ， 产 生 近 19400 美 元 的 预期 回报 。 这 
种 最 优 报价 小 于 最 佳 猜测 的 情况 更 加 典型 。 








6.9 讨论 


贝 叶 斯 估计 的 特点 之 一 就 是 结果 来 目 后 验 分 布 这 种 形式 。 经 典 的 佑 
计 通 冲 会 生成 一 个 单一 的 点 佑 计 或 置信 区 间 ， 如 果 估 计 就 是 过 程 的 最 后 
一 步 ， 这 是 足够 的 。 但 如 果 你 想 以 一 个 估计 作为 后 续 分 析 的 输入 ， 扣 估 
计 和 间隔 往往 没有 多 少 帮 助 。 


在 这 个 例子 中 ， 我 们 使 用 后 验 分 布 来 计算 最 优 报 价 。 给 定 出 价 的 回 
报 是 不 对 称 和 不 连续 的 如果 你 高 价 ， 游 戏 失败 》， 所 以 单纯 分 析 很 难 
解决 这 个 问题 。 但 用 数值 计算 的 方法 就 相对 简单 。 


贝 叶 斯 方法 的 初学 者 常常 通过 均值 或 者 最 大 似 然 估计 来 描述 后 验 分 
布 ， 这 种 概述 是 有 用 的 ， 不 过 如 果 你 需要 的 仅仅 就 是 这 些 内 容 ， 也 许 一 
开始 就 不 必 考 虑 贝 叶 斯 方法 。 


在 你 需要 将 后 验 概率 带 入 后 续 分 析 而 进行 模型 决策 时 ， 贝 叶 斯 方法 
就 相当 有 用 了 ， 就 如 我 们 在 本 章 做 的 一 样 。 另 外 ， 进 行 预 调 时 ， 贝 叶 斯 
方法 也 很 有 用 ， 下 一 章 我 们 会 看 到 案例 。 








第 7 革 ” 预 测 
7.1 波士顿 村 能 队 问 题 


在 2010 一 2011 的 国家 冰球 联盟 (NHL) 总 决赛 中 ， 我 喜爱 的 7 个 赛 
季 冠 军 波士顿 棕熊 队 与 我 呀 之 以 鼻 的 温哥华 加 拿 大 人 队 对 决 。 波 士 顿 以 
0 : 1 和 2 : 3 输 掉 了 前 两 场 比赛 ， 以 8 :1 和 4: 0 赢 了 后 续 两 场 比 赛 。 那 么 在 
赛季 的 这 个 时 间 点 上 ， 考 虑 波士顿 赢 下 一 场 比赛 的 可 能 性 是 多 少 ?” 赢得 
总 冠军 的 概率 是 多 少 ? 

与 往常 一 样 ， 要 回答 这 样 的 问题 我 们 需要 做 一 些 假设 。 首 先 ， 有 理 
由 相信 在 冰球 比赛 中 的 进 球 得 分 至 少 近 似 于 泊 松 过 程 ， 这 意味 着 在 比赛 
的 任何 时 间 上 都 有 相同 的 得 分 可 能 。 


其 次 ， 我 们 可 以 假设 ， 长 期 来 看 对 菏 一 个 特定 的 对 手 ， 每 队 都 有 一 
个 单 场 平均 得 分 数 ， 记 为 A 。 


根据 这 些 假设 ， 我 回答 这 个 问题 的 策略 是 : 
1. 从 以 前 的 比赛 统计 资料 ， 为 A 选择 一 个 先 验 分 布 。 
2. 由 前 四 场 比赛 的 得 分 估计 每 队 的 A 。 


3. 用 4 的 后 验 分 布 来 计算 每 队 的 进 球 分 布 ， 得 分 差 的 分 布 ， 还 有 每 
个 球 队 下 一 场 比赛 获胜 的 概率 。 


4. 计算 每 个 队 并 得 赛季 冠军 的 可 能 性 。 

要 选择 一 个 先 验 分 布 ， 我 从 htip:/www.nhl.com 获得 了 一 些 统计 数 
字 ， 其 体 包括 每 队 在 2010 一 2011 赛 季 平 均 每 场 进 球 的 分 布 ， 大 致 是 均值 
为 2.8， 标 准 差 为 0.3 的 高 斯 分 布 。 


高 斯 分 布 是 连续 的 ， 但 我 们 会 用 离散 的 Pmf 近似 它 ，thinkbayes 
提供 了 如 下 的 MakeGaussianPmf 实现 : 


def MakeGaussianpmf(mu, sigma, num sigmas, n=1081): 



































pmf = Pmf() 
low = mu - num sigmas*sigma 
high = mu + num sigmas*sigma 


for x in numpy.linspace(low, high, n): 
p = scipy.stats.norm.pdf(mu, sigma, Xx) 
pmf.Set(x, p) 

pmf.Normalize() 

return pmf 





mu 和 sigma 是 高 斯 分 布 的 均值 和 标准 偏差 。num_sigmas 是 低 于 和 
高 于 Pmf 均 值 的 标准 偏差 数量 ，n 为 Pmf 中 条 目的 个 数 。 


同 之 前 一 样 ， 我 们 使 用 numpy .linspace 构建 一 个 在 上 下 界 区 间 
(包括 边界 ) 上 有 着 等 间隔 值 的 n 个 条 目的 数组 。 


norm.pdf 估算 出 高 斯 概率 密度 函数 (PDF) 。 
再 回 到 比赛 问题 上 ， 下 面 是 一 组 有 关 A 值 的 假设 。 











class Hockey(thinkbayes.Suite): 


def _init (self): 
pmf = thinkbayes.MakeGaussianpmf(2.7, 0.3, 4) 


thinkbayes.Suite. init (self, pmf) 





这 样 的 先 验 分 布 是 均值 2.7， 标 准 偏差 0.3 的 高 斯 分 布 ， 范 围 是 上 下 
以 均值 为 中 心 的 4 个 sigma。 


一 如 以 往 ， 我 们 必须 决定 如 何 表示 每 个 假设 ， 在 这 种 情况 下 ， 我 将 
A4=x (x 是 浮 点 值 ) 作为 假设 。 





7.2” 泊 松 过 程 


在 数理 统计 上 ， 过 程 是 一 个 物理 系统 的 随机 模型 〈“ 随 机 ?是 指 该 模 
型 包含 条 种 随机 量 〉)。 例 如 ， 一 个 伯 努 利 过 程 是 一 个 事件 序列 的 模型 ， 
称 为 试验 ， 其 中 每 个 试验 有 两 种 可 能 的 结果 ， 比 如 成 功 和 和 失败。 因此， 
对 于 一 系列 的 硬币 翻转 事件 ， 或 者 一 系列 的 射击 得 分 事件 ， 伯 努 利 过 程 
是 一 个 天 然 的 模型 。 油 松 过 程 是 伯 努 利 过 程 的 连续 版 本 ， 一 个 事件 在 任 
何 时 间 点 上 发 生 的 概率 是 相同 的 。 泪 松 过 程 可 应 用 于 到 达 商 店 的 客户 ， 
公交 车 到 站 ， 或 者 冰球 比赛 的 进 球 得 分 上 。 


在 许多 实际 系统 中 ， 事 件 的 概率 随时 间 变 化 。 客 户 在 一 天 的 东 些 时 
段 去 商店 的 可 能 性 更 高， 公交 车 应 当 以 固定 的 间 阳 到达 ， 比 赛 中 不 同 的 
时 间 段 的 得 分 有 高 低 之 分 。 


但 所 有 模型 都 是 为 了 简化 事物 ， 在 这 种 情况 下 ， 以 泊 松 过 程 模拟 冰 
球 比 赛 是 一 个 合理 的 选择 。 朝 雅 ， 称 勒 和 和 鲁 布 纳 《〈2010) 分 析 德 国足 球 
联赛 的 得 分 ， 得 出 了 相同 的 结论 ， 见 
http:/www.cimat.mx/Eventos/NVpec10/img/poisson.pdf 。 


使 用 该 模型 的 优点 是 ， 我 们 可 以 有 效 计算 出 每 场 比赛 进 球 的 分 布 以 


及 进 球 时 间 点 间隔 的 分 布 。 具 体 地 ， 如 有 果 一 场 比赛 平均 进 球 数 是 lam ， 
每 场 比赛 进 球 的 分 布 可 由 泊 松 PMF 给 出 : 














def EvalPoissonpmf(lam, Kk): 
return (lam)**k * math.exp(-lam) / math.factorial(k) 





得 分 间隔 的 分 布 由 指数 型 PDF 给 出 : 


def EvalExponentialpdf(lam, x): 
return lam * math.exp(-lam * x) 





我 用 了 变量 lam ， 因 为 lambda 是 Python 中 的 保留 关键 字 。 这 两 


个 函数 都 在 thinkbayes.py 中 。 


7.3 后 验 


现在 ， 我 们 可 以 计算 一 个 给 定 lam 值 的 球 队 在 一 场 比赛 中 进 k 个 球 
的 可 能 性 : 


# class Hockey 


def Likelihood(self, data, hypo): 
lam = hypo 
k = data 
like = thinkbayes.EvalpPoissonpmf(lam, k) 
return like 





每 个 假设 都 是 4 的 一 个 可 能 的 值 ， 数 据 是 得 分 k ， 利 用 这 里 的 似 然 
商 数 ， 我 们 可 以 为 每 个 球 队 准备 一 个 suite 对 象 ， 接 看 用 前 四 场 比赛 的 得 
分 进行 修正 。 


suitel = Hockey('bruins') 
suite1.Updateset([6，2，8，4]) 


suite2 = Hockey( "canucks ' ) 


suite2.Updateset([1，3，1，96]) 








图 7-1 显 示 了 给 定 lam 的 后 验 分 布 结果 。 根 据 前 四 场 比 赛 的 数据 ， 
最 有 可 能 的 lam 值 加 拿 大 人 队 是 2.6， 标 能 队 是 2.9( 译 注 : 冰球 比赛 进 
一 球 得 到 一 分 ， 因 此 对 “得 分 "和 “ 进 球 ” 结 合 上 下 文 灵活 使 用 〉。 


2.0 


2:5 3.0 
每 场 比赛 的 得 分 ( 进 球 ) 


图 7-1 每 场 比赛 进 球 数 的 后 验 分 布 


3.5 





4.0 


7.4” 进 球 分 布 


， 要 计算 每 个 团队 赢得 下 “ 场 比赛 的 概率 ， 我 们 需要 计算 各 球 队 得 分 
人 


如 果 我 们 知道 确切 的 lam 取 值 ， 我 们 可 以 再 次 使 用 泊 松 分 
布 。thinkbayes 提供 了 一 个 方法 计算 泊 松 分 布 的 分 段 近似 值 : 








def MakePoissonpmf(lam, high): 
pmf = Pmf() 
for k in xrange(6，high+1) : 
p = EvalPoissonpmf(lam, Kk) 
pmf.Set(k, p) 


pmf.Normalize() 
return pmf 





所 计算 的 Pmf 值 的 范围 从 0 到 high 。 所 以 ， 如 果 1am 值 为 3.4， 我 们 
可 以 计算 如 下 : 


lam = 3.4 
goal dist = thinkbayes.MakePoissonpmf(lam, 106) 





我 选择 了 上 界 10， 因 为 比赛 中 得 分 超过 10 球 的 概率 是 相当 低 的 。 


目前 为 止 这 些 都 很 简单 ， 问 题 是 我 们 不 知道 lam 的 确切 值 。 不 过 
好 ， 我 们 有 lam 可 能 值 的 分 布 。 


对 于 lam 的 每 一 个 值 ， 得 分 是 泪 松 分 布 。 这 样 得 分 的 整体 分 布 就 是 
这 些 泊 松 分 布 的 混合 分 布 ， 根 据 lam 分 布 的 概率 进行 加 权 。 


给 定 1am 的 后 验 分 布 ， 下 面 是 计算 得 分 分 布 的 代码 : 


def MakeGoalPmf(suite) : 











metapmf = thinkbayes.Pmf() 


for lam, prob in suite.Items(): 
pmf = thinkbayes.MakePoissonPmf(1am，16) 
metapmf.Set(pmf, prob) 


mix = thinkbayes.MakeMixture(metapmf) 
return mix 





对 于 lam 的 每 一 个 值 ， 我 们 创建 一 个 泊 松 Pmf， 并 把 它 添加 到 元 
Pmf。 我 称 其 为 元 Pmf， 


因为 它 是 一 个 包含 多 个 Pmfs 值 的 Pmf 对 象 。 


然后 我 们 用 MakeMixture 计算 混合 分 布 〈 人 参考 MakeMixture 的 “ 混 
PT 4 





图 7-2 显示 了 由 此 产生 的 棕 能 队 和 加 拿 大 人 队 的 进 球 分 布 。 标 能 队 
在 接 下 来 的 比赛 中 不 太 可 能 只 进 不 到 3 球 ， 更 可 能 进 4 球 以 上 。 





概率 值 





得 分 
图 7-2 单 场 比赛 进 球 分 布 


7.5 获胜 的 概率 
为 了 得 到 获胜 的 概率 ， 首 先 我 们 计算 两 队 进 球 得 分 差异 的 分 布 鉴 
goal_ dist1 = MakeGoalPmf (suite1) 


goal_dist2 = MakeGoalPmf (suite2) 
diff = goal dist1 - goal dist2 





减法 运算 符 调用 Pmf. sub ， 它 枚 举 一 对 值 〈 两 队 得 分 ) 并 计 
1 计算 两 个 分 布 的 差 和 相 加 操作 一 样 ， 如 我 们 在 第 40 页 “加 数 ” 看 
到 的 。 


如 来 得 分 差别 是 正 的 ， 标 能 队 启 ， 如 果 为 负 ， 加 拿 大 人 队 说; 如 琳 
是 0， 束 是 平局 : 





p_win = diff.ProbGreater (0) 
p_loss = diff.ProbLess (6) 
p_tie = diff.Prob (6) 





由 前 一 节 中 的 得 分 的 分 布 看 ，p_win 是 46%，p_loss 是 
37%，p_tie 为 17%。 





在 规定 比赛 时 间 结 束 时 如 果 出 现 平 局 ， 两 队 会 进行 加 时 赛 ， 直 到 其 
中 一 队 得 分 。 由 于 一 旦 进 球 比赛 就 会 乌 上 结束 ， 这 种 加 时 赛 形式 被 称 
为 “突然 死亡 法 则 ”。 


7.6 ”突然 死亡 法 则 

为 了 计算 在 加 时 赛 通过 “突然 死亡 法 则 * 赢 球 的 概率 ， 重 要 的 统计 指 
标 不 是 每 场 比赛 进 球 数 ， 而 是 第 一 个 进 球 的 时 间 。 假 设 的 进 球 是 一 个 泊 
松 过 程 ， 意 味 着 得 分 之 间 的 时 间 服 从 指数 分 布 。 


给 定 lam ， 我 们 可 以 计算 得 分 之 间 的 时 间 : 











lam= 3.4 
time dist = thinkbayes.MakeExponentialPmf (lam, high = 2 ，n= 161) 





high 是 分 布 的 上 界 。 在 这 个 例子 中 我 选择 2， 因 为 超过 2 场 比赛 不 
进 球 的 概率 是 很 小 的 。n 是 Pmf 里 面值 的 个 数 。 


如 果 我 们 知道 lam 的 确切 值 ， 这 就 是 全 部 需要 的 代码 了 。 但 我 们 不 
确定 lam ， 我 们 知道 的 是 lam 可 能 值 的 后 验 概 率 分 布 。 


所 以 ， 如 我 们 在 计算 得 分 分 布 中 做 的 一 样 ， 我 们 建立 一 个 元 Pmf 并 
且 计 算 Pmfs 的 混合 





def MakeGoalLTimePmf(suite) : 
metapmf = thinkbayes.Pmf() 


for lam, prob in suite.Items(): 
pmf = thinkbayes.MakeExponentialpmf(lam, high=2,n=28081) 
metapmf.Set(pmf, prob) 


mix = thinkbayes.MakeMixture(metapmf) 
return mix 











图 7-3 显 示 了 生成 的 分 布 。 对 于 时 间 小 于 1 局 〈 比 赛 的 3，1 场 比赛 
有 3 局 ) ， 棕 能 队 更 容易 得 分 。 加 时 赛 时 间 拖 得 越 长 ， 加 拿 大 人 队 越 可 


人 已 ] 
能 得 分 。 





0.5 1.0 】 .5 2.0 
间隔 (以 比赛 场次 计 ) 


图 7-3 ”两 次 得 分 间 的 间隔 时 间 分 布 〈 时 间 以 比赛 场次 计算 ) 
我 设置 了 相当 高 的 n 值 ， 以 最 大 限度 地 减少 平局 的 数量 ， 因 为 两 文 





球 队 是 不 可 能 同时 得 分 的 。 





现在 我 们 计算 标 熊 队 首先 得 分 的 概率 : 


time dist1 = MakeGoalTimePmf (suite1) 
time dist2 = MakeGoalTimePmf (suite2) 
p_overtime = thinkbayes.PmfProbLess (time dist1 ， time dist2) 








对 标 怠 队 而 言 ， 启 得 加 时 赛 的 概率 为 529%。 








最 后 ， 获 胜 的 总 概率 为 常规 时 间 启 得 比赛 的 机 会 加 上 加 时 赛 启 得 比 


赛 的 概率 。 


p_tie = diff.Prob (6) 
p_overtime = thinkbayes.PmfProbLess (time dist1 ， time dist2) 


p_win = diff.ProbGreater (69)+ p_ tie * p overtime 








所 以 对 标 熊 队 而 言 ， 最 的 下 一 场 比赛 的 整体 概率 是 55%。 


如 果 要 赢得 整个 赛季 (总 决 赛 ) 的 话 ， 标 熊 队 可 以 在 下 两 场 比赛 中 
和 同样 ， 我 们 可 以 计算 出 
总 陈 深 : 








# win the next two 
p_series = p_win**2 


# split the next two, win the third 


p_series += 2 * p win * (1-p win) * p win 








因此 棕熊 队 赢得 赛季 总 冠军 的 机 会 是 57%。 在 2011 年 ， 他 们 确实 做 
到 了 。 


7.7 讨论 


与 往常 一 样 ， 本 章 讨 论 的 分 析 是 基于 模型 决策 的 ， 建 模 几 乎 总 是 一 
个 反复 迭代 的 过 程 。 


一 般 情 况 下 ， 你 要 从 一 些 简单 的 能 产生 近似 答案 的 模型 开始 ， 找 出 
错误 的 可 能 来 源 ， 并 找到 机 会 来 改进 模型 。 


在 这 个 例子 中 ， 我 会 考虑 以 下 选项 : 


。 我 为 每 支队 伍 选 择 了 一 个 基于 平均 得 分 的 先 验 。 但 这 个 统计 是 所 有 
对 手 的 平均 值 。 针 对 茶 一 特定 的 对 手 ， 我 们 可 以 更 灵活 些 。 例 如 ， 
如 采 最 好 锋线 的 队伍 和 最 粳 糕 后 防 的 队伍 比赛 ， 比 赛 得 分 预期 目标 
可 以 是 平均 值 以 上 的 几 个 标准 偏差。 

关于 数据 ， 我 只 用 了 冠军 赛 前 四 场 比赛 的 数据 。 如 果 两 只 球 队 在 常 
规 赛 比赛 过 ， 我 可 以 使 用 冲 规 赛 的 结束 数据 。 有 些 复 洒 的 是 球 队 成 
员 在 这 期 间 的 变动 一 一 由 于 受伤 和 赛季 内 的 球员 交易 ， 所 以 最 好 给 
近期 的 比赛 结果 更 多 的 权 值 。 

为 了 充分 利用 所 有 可 用 的 信息 ， 我 们 可 以 从 所 有 第 规 赛 得 分 估计 各 
队 的 进 球 率 ， 用 两 只 队伍 间 的 比赛 结果 进行 进一步 的 适度 修正 。 这 
样 做 会 有 些 复杂 ， 但 仍然 是 可 行 的 。 


对 于 第 一 种 选择 ， 我 们 可 以 用 常规 赛 的 比赛 结果 估计 队伍 间 比 客 的 
变化 量 。 要 感谢 德 克 : 霍 格 ， 我 从 http://forechecker.blogspot.com ， 上 获 
得 了 和 常规 赛 每 场 比赛 的 进 球 得 分 数 〈 不 含 加 时 赛 ) 。 


不 同 赛 区 的 队伍 在 常规 赛 仅 相 遇 1 次 到 2 次 ， 所 以 我 把 重点 放 在 进行 
4 到 6 场 比赛 的 队伍 上 。 对 于 每 一 对 球 队 ， 我 计算 他 们 每 场 比赛 的 平均 进 
球 作为 4 的 估计 值 ， 然 后 绘制 估计 的 分 布 。 


本 
色 和 更 高 。 


1 可 


























如 果 我 们 采用 这 一 较 高 的 方差 再 次 进行 前 验 概率 分 析 ， 标 熊 队 赢得 
系列 赛 的 概率 是 80%， 与 采用 较 低 方差 得 到 的 57% 相 比 高 很 多 。 


所 以 ， 事 实证 明 ， 这 一 结果 对 先 验 概率 是 敏感 的 ， 因 此 自然 使 我 们 


思考 ， 完 竟 采 用 多 少数 据 进 行 分 析 才 合理 。 
考虑 到 不 同 模 型 会 产生 的 差异 (高 方 受 和 低 方差 )， 这 似乎 说 明 值 
得 我 们 投入 一 些 精力 来 获得 合适 的 前 验 概率 。 


本 章 的 代码 和 数据 都 可 以 从 http:Nthinkbayes.com/hockey.py 和 
http:/thinkbayes.com/hockey_data.csv 获得 。 欲 了 解 更 多 信息 ， 请 参阅 前 


言 的 “代码 指南 ”。 











7.8 ”练习 

练习 7-1。 

如 果 公 交 车 到 站 间隔 是 20 分 钟 ， 你 到 达 公 交 站 的 时 间 是 随机 的 ， 那 
么 你 等 待 公 交 车 的 时 间 从 0 到 20 分 钟 之 间 均 匀 分 布 。 但 在 现实 中 ， 公 交 
车 抵达 的 间隔 是 有 变动 的 。 假 设 你 正在 等 待 一 辆 公交 车 ， 而 你 知道 公交 
车 抵达 时 间 的 历史 分 布 。 计 算 你 等 待 时 间 的 分 布 。 


提示 : 假设 公交 车 间隔 为 等 概率 的 5 分 钟 或 10 分 钟 。 你 刚好 在 一 个 
10 分 钟 发 车 间 隅 中 到 达 公交 站 的 概率 是 多 少 ? 


我 在 下 一 章 提 供 了 这 个 问题 的 一 个 解法 。 

练习 7-2。 

假设 乘客 到 达 公 交 车 站 是 一 个 参数 为 A 的 理想 泊 松 过 程 。 如 果 你 到 
达 车 站 ， 发 现 有 3 人 在 等 待 ， 对 你 而 言 ， 距 离 上 一 趟 公交 车 抵达 过 去 了 
多 久 时 间 的 后 验 分 布 是 什么 ? 

我 下 一 章 提供 了 这 个 问题 的 一 种 解法 。 

练习 7-3。 

假设 你 是 一 位 在 新 的 环境 中 进行 害虫 取样 的 生态 学 家 。 

你 在 测试 地 区 安置 了 100 个 陷阱 ， 第 二 天 回去 检查 它们 。 你 发 现 有 
37 个 陷阱 被 触发 捕获 害虫 。 一 旦 陷阱 触发 ， 它 束 不 能 再 继续 捕获 其 他 昆 
虫 直到 被 复位 。 


如 果 你 重 设 陷阱 ， 两 天 后 《内 ) 回来 ， 你 预期 发 现 多 少 被 触发 的 陷 
阱 ? 计算 这 一 后 验 /预测 的 分 布 。 


练习 7-4。 


假设 你 是 一 个 管理 有 100 个 灯泡 公寓 的 大 楼 经 理 。 你 的 黄 任 是 在 灯 
泡 破损 时 更 换 灯 泡 。 











1 月 1 日 ， 所 有 100 个 灯泡 都 是 好 的 。 当 你 2 月 1 日 检查 时 ， 你 发 现 有 3 
个 灯泡 爆 灭 。 假 设 你 4 月 1 日 回来 检查 ， 你 预期 会 有 多 少 灯泡 坏 挥 ? 


在 前 面 的 练习 中 ， 你 可 以 合理 地 假定 一 个 事件 在 任意 时 间 发 生 的 概 
率 相 同 。 对 于 灯泡 ， 失 效 的 可 能 性 取决 于 灯泡 的 寿命 。 具 体 而 言 ， 旧 娄 
泡 的 故障 率 会 随 痢 灯丝 的 蒸发 而 增加 。 








这 个 问题 相 比 其 他 问题 更 开放 ， 你 将 不 得 不 作出 决策 模型 。 


你 可 能 要 了 解 一 下 Weibull 分 布 ( 
http://en.wikipedia.org/wiki/Weibull_distribution ) 。 或 寻找 一 些 灯 泡 寿 命 
曲线 的 相关 信息 。 


第 8 草 ”观察 者 的 偶 委 


8.1 红线 问题 


在 马 村 诸 塞 州 , “红线 ?是 连接 剑桥 和 该 士 顿 的 地 铁 线路 。 我 在 剑桥 
工作 的 时 候 乘坐 红线 地 铁 从 Kendall 广 场 到 南 站 ， 再 转 乘 通 勤 铁路 到 
Needham。 上 下 班 高 峰 期 ， 红 线 列车 平均 每 7 一 8 分 钟 运行 一 趟 。 


当 到 达 车 站 时 ， 我 可 以 根据 站 台 上 的 乘客 人 数 估算 下 一 班车 到 达 的 
上 时间。 如果 只 有 几 个 人 ， 就 推测 刚刚 错过 了 地 铁 ， 下 一 班 地 铁 预计 要 等 
约 7 分 钟 。 如 果 站 台 上 有 较 多 乘客 ， 就 估计 地 铁 会 很 快 到 达 。 但 是 如 果 
有 相当 多 的 乘客 ， 则 要 怀疑 列车 未 能 如 其 运行， 所 以 会 国 到 街 上 中 出 和 
全 


在 等 待 火车 时 ， 我 思考 了 怎样 通过 贝 叶 斯 估计 帮助 我 预测 等 待 时 
间 ， 并 决定 什么 时 候 应 该 放弃 坐 火车 而 改 为 乘坐 出 租车 。 本 章 将 介绍 我 
采用 的 分 析 过 程 。 


本 间 内 容 源 自 Brendan Ritter 和 Kai Austin 负 责 的 一 个 项 目 ， 他 们 和 
我 在 欧 林 学 院 同 教 一 个 班 。 本 章 中 的 代码 可 以 从 
http://thinkbayes.com/redline.py 得 到 。 我 用 来 收集 数据 的 代码 在 
http:/thinkbayes.com/redline_data.py 。 欲 了 解 更 多 信息 ， 请 参见 前 言 
的 “代码 指南 ”。 





8.2 ”模型 


在 分 析 前 ， 我 们 必须 决定 一 些 建 模 细节 。 首 先 ， 我 将 旅客 抵达 车 站 
当 作 泊 松 过 程 ， 这 意味 着 我 假设 乘客 可 能 在 任何 时 间 等 概率 到 达 ， 乘 客 
有 一 个 未 知 的 到 达 率 4 ， 以 每 分 钟 到 达 的 乘客 计量 。 因 为 我 在 很 短 的 时 
间 段 内 观察 乘客 ， 而 且 古 在 每 天 的 同一 时 间 ， 所 以 我 假设 4 为 常数 。 


另 一 方面 ， 列 车 的 到 达 过 程 不 是 泊 检 的。 高 峰 时 间 从 终点 〈 灰 西 钙 
站 ) 去 波士顿 的 列车 每 隔 7 一 8 分 钟 发 出 ， 但 到 Kendall 广 场 的 时 候 ， 列 车 
间隔 在 3 一 12 分 钟 内 变化 。 


为 了 收集 关于 列车 发 车 间隔 的 数据 ， 我 编号 了 下 载 实时 数据 的 脚本 
http:/www.mbta.com/rider_tools/developers/ ， 选 择 往 南 到 达 Kendall 广 场 
的 列车 ， 并 在 数据 库 中 记录 其 到 达 时 间 。 脚 本 在 每 个 工作 日 下 午 4 点 到 
下 午 6 点 运行 ， 持 续 5 天 ， 每 天 记录 了 15 次 列车 到 达 。 然 后 我 计算 前 后 
到 达 列 车 的 时 间 间 隅 ， 这 些 分 布 的 差别 如 图 8-1 所 示 ， 标 为 z 。 











CDF 累 积分 布 蚂 数值 





We 5 10 15 20 
时 间 (分 外) 


图 8-1 根据 收集 到 的 数据 绘制 的 列车 间隔 的 PMF， 以 KDE 平 滑 处 理 
(z 为 实际 分 布 ，zb 是 由 乘客 看 到 列车 间隔 的 偏差 分 布 ) 





如 果 你 下 午 4 点 到 下 午 6 点 在 站 人 台 记 录 列 车 的 间 隅 ， 这 就 是 你 看 到 列 
车 间隔 时 间 的 分 布 。 但 是 如 果 你 随机 到 达 站 台 (不管 列车 时 刻 表 )〉 ， 会 
看 到 一 个 与 此 不 同 的 分 布 ， 随 机 到 达 的 乘客 所 看 到 的 列车 间隔 的 平均 
值 ， 比 实际 的 平均 值 要 高 一 些 。 


为 什么 ? 因为 乘客 到 达 的 时 间 间 隔 更 可 能 是 一 个 较 大 的 区 间 。 考 碟 
一 个 简单 的 例子 : 假设 列车 间隔 是 5 分 钟 或 者 10 分 钟 〈 相 等 的 概率 ) 。 
在 这 种 情况 下 ， 列 车 之 间 的 平均 时 间 是 7.5 分 钟 。 


但 乘客 更 可 能 在 10 分 钟 的 时 段 内 到 达 而 不 是 在 5 分 钟 内 ， 事 实 上 前 
者 是 后 者 的 两 倍 。 如 果 我 们 调查 到 站 旅客 会 发 现 ， 其 中 2/3 在 10 分 钟 的 
时 段 内 到 达 ，5 分 钟 时 段 内 到 达 的 只 有 1/3。 所 以 到 站 乘客 观察 到 的 列车 
间隔 平均 值 是 8.33 分 钟 。 











这 种 观察 者 偏差 在 许多 情况 下 出 现 。 学 生 们 认为 班级 比 实际 的 要 
大 是 因为 他 们 经 党 上 大 课 ， 飞 机 上 的 乘客 认为 飞机 比 实际 更 满 是 因为 他 
们 第 利 乘 坐 满 员 的 航班 。 


在 每 种 情况 下 ， 实 际 分 布 中 的 值 都 按照 比例 被 过 采样 了 。 例 如 ， 在 
红线 上 ， 差 距 就 是 两 倍 大 。 


所 以 ， 有 了 列车 间隔 的 实际 分 布 ， 我 们 可 以 计算 得 到 乘客 看 到 的 列 
车 间隔 分 布 。BiasPmf 进行 这 个 计算 : 








def Biaspmf(pmf): 
new_pmf = pmf.Copy() 


for x, p in pmf.Items(): 
new_ pmf.Mult(x, x) 


new_pmf.Normalize() 
return new_ pmf 








pmf 是 实际 的 分 布 ; new_pmf 是 偏 分 布 。 在 循环 中 ， 我 们 将 每 个 值 
的 概率 x 乘 以 观测 到 的 似 然 度 ， 其 正比 于 x ， 然 后 我 们 对 结果 归 一 化 。 


8.3 等待 时 间 


等 待 时 间 称 之 为 y ， 是 乘客 到 达 时 刻 和 下 一 直列 车 到 达 时 刻 之 间 的 
时 间 。 经 过 时 间 称 之 为 x ， 是 乘客 到 达 时 刻 和 上 一 直列 车 到 达 时 刻 之 间 
的 时 间 。 这 样 定义 使 得 zb = x +y 。 

给 定 zb 的 分 布 ， 我 们 可 以 计算 出 y 的 分 布 。 我 完 从 一 个 简单 的 情况 
开始 ， 然 后 再 一 般 化 。 假 设 如 前 面 的 例子 ，zb 为 5 分 钟 的 概率 是 113，10 
分 钟 的 概率 就 是 2/3。 


如 果 我 们 在 5 分 钟 间隔 内 随机 到 达 ，y 均匀 分 布 于 0 至 5 分 钟 内 。 如 
果 我 们 在 10 分 钟 的 间隔 到 达 ，y 均匀 分 布 于 0 到 10 分 钟 内 。 所 以 整体 分 
布 是 根据 每 一 个 间隔 的 概率 加 权 了 的 均匀 分 布 的 混合 分 布 。 


下 面 的 函数 将 计算 zb 的 分 布 和 y 的 分 布 : 








def PmfOfWNaitTime(pmf_zb) : 
metapmf = thinkbayes.Pmf() 
for gap, prob in pmf_zb.Items(): 
uniform = MakeUniformpmf(606, gap) 
metapmf.Set(uniform, prob) 


pmf_y = thinkbayes.MakeMixture(metapmf) 
return pmf_y 





PmfOfNaitTime 通过 映射 每 个 均匀 分 布 和 其 概率 来 构建 一 个 元 
Pmf。 然 后 ， 它 使 用 45 页 “混合 分 布 * 中 的 MakeMixture ， 计 算 混合 分 


PmfOfWaitTime 还 使 用 了 MakeUniformPmf ， 定 义 为 : 





def MakeUniformpmf(low, high): 
pmf = thinkbayes.Pmf() 
for x in MakeRange(low=low, high=high): 
pmf.Set(x, 1) 
pmf.Normalize() 


return pmf 





low 和 high 决定 了 均匀 分 布 的 范围 〈 含 两 端 ) 。 最 
后 ，MakeUniformPmf 使 用 了 MakeRange ， 此 处 定义 为 : 


def MakeRange(low, high, skip=10): 
return range(low, high+skip, skip) 





MakeRange 定义 了 一 组 等 每 时 间 (以 秒表 示 )〉 的 可 能 值 。 上 默认 情况 
下 ， 它 将 范围 划分 为 10 秒 的 时 间 间 隔 。 
为 了 封装 这 些 分 布 的 计算 过 程 ， 我 创建 了 一 个 


类 WaitTimeCalculator : 
class WaitTimeCalculator(object): 
def _ init (self, pmf z): 
self.pmf z = pmf_z 
self.pmf zb = Biaspmf(pmf) 


self.PmfOfwaitTime(self.pmf_zb) 
self.pmf y 


self.pmf_y 
self.pmf x 








参数 pmf_z 是 z 的 非 偏差 分 布 。pmf_zb 是 乘客 看 到 的 列车 间隔 的 
偏差 分 布 。pmf_y 是 等 每 时 间 的 分 布 。pmf_x 是 经 过 的 时 间 的 分 布 ， 它 
和 等 待 时 间 分 布 是 一 样 的 。 想 知道 为 什么 ? 记得 对 于 一 个 zp 的 一 个 特 
定 值 ，y 的 分 布 是 从 0 到 zp 均匀 的 ， 再 考虑 到 x = zp - y， 因 此 x 的 分 
布 也 是 从 0 到 zp 均匀 的 。 


图 8-2 显 示 了 z 、zb 和 y 的 分 布 一 一 基于 我 从 Red Line 网 站 上 收集 的 
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图 8-2 z，zb， 乘 客 等 待 时 间 y 的 CDF 


为 了 解释 这 些 分 布 ， 我 从 Pmfs 切 换 到 Cdfs。 大 多 数 人 都 更 熟悉 
Pmfs， 但 我 认为 一 旦 你 习惯 了 ，Cdfs 更 容易 解释 。 如 果 要 在 同一 坐标 轴 
上 绘制 多 个 分 布 ， 束 应 该 用 Cdfs。 


z 的 平均 值 为 7.8 分 钟 。zb 的 平均 值 为 8.8 分 钟 ， 高 出 z 约 13%。y 均 
值 为 4 4 分 钟 ， 是 zb 均值 的 一 半 。 


顺便 提 一 下 ， 根 据 红线 调度 站 的 报告 显示 ， 在 局 峰 期 间 列车 运行 间 
隔 是 9 分 钟 / 次 。 这 接近 zb 的 平均 值 ， 但 比 z 的 平均 值 遍 。 通 过 与 MBTA 
报告 中 的 列车 间隔 时 间 是 有 所 保留 的 ， 以 提供 
一 些 回 旋 余 地 。 








8.4 预测 等 竺 时 间 


让 我 们 回 到 初始 问题 : 设想 一 下 ， 当 我 到 达 站 人 台 时 看 到 有 10 人 在 等 
待 。 在 下 一 班车 到 达 前 ， 我 预期 要 等 竺 多 长 时 间 呢 ? 


与 往常 一 样 ， 让 我 们 从 这 个 问题 的 最 简单 的 版 本 开始 ， 然 后 找到 最 
终 答案 。 假 设 我 们 给 出 z 的 实际 分 布 ， 而 我 们 知道 乘客 到 达 率 和 是 每 分 钟 
2 名 乘客 。 

在 这 种 情况 下 ， 我 们 可 以 : 
1. 用 z 的 分 布 来 计算 zp 的 先 验 分 布 ， 乘 客 所 看 到 的 列车 间隔 分 





2. 然后 ， 我 们 可 以 使 用 乘客 数量 来 估计 x 的 分 布 ， 即 上 一 趟 火车 
离开 后 经 过 的 时 间 。 


3. 最 后 ， 我 们 使 用 关系 y = zp - x 可 得 y 的 分 布 。 


第 一 步 是 创建 一 个 WaitTimeCalculator ， 封 装 zp ，x 和 y 的 分 布 
一 一 在 考虑 乘客 的 数目 之 前 。 


wtc = WaitTimeCalculator(pmf z) 


pmf_z 是 给 定 的 间 隅 时 间 的 分 布 。 


它 封 装 了 x 的 
后 验 分 布 和 y 的 预测 分 布 


ete = ElapsedTimeEstimator (wtc, 
lam= 2.6/66， 
num_passengers = 15) 





参数 是 NaitTimeCalculator ， 乘 客 到 达 率 1am (表示 为 乘客 人 
数 / 秒 ) 和 站 台 上 看 到 的 乘客 数量 (假设 是 15) 。 


ElapsedTimeEstimator 的 定义 : 


class ElapsedTimeEstimator(object): 


def _init (self, wtc, lam, num passengers): 
self.prior x = Elapsed(wtc.pmf x) 


self.post x = self.prior x.Copy() 
self.post x.Update((lam, num passengers)) 


self.pmf y = PredictNaitTime(wtc.pmf zb, self.post x) 





prior x 和 posterior x 是 经 过 时 间 的 先 验 和 后 验 分 布 。pmf_y 
是 等 待 时 间 的 预测 分 布 。 


ElapsedTimeEstimator 使 用 Elapsed 和 PredictwaitTime ， 定 
义 如 下 。 


Elapsed 是 表示 x 的 假想 分 布 的 Suite 对 象 。x 的 先 验 分 布 直 接 
由 WaitTimeCalculator 得 到 。 然 后 ， 我 们 使 用 这 些 数据 ， 包 括 到 达 
率 ，lam 和 站 台 上 乘客 的 数量 计算 后 验 分 布 。 


下 面 是 Elapsed 的 定义 : 


class Elapsed(thinkbayes.Suite): 


def Likelihood(self, data, hypo): 
x = hypo 
lam, k = data 


like = thinkbayes.EvalpPoissonpmf(lam * x, k) 
return like 





与 往常 一 样 ，Likelihood 接受 一 个 假设 和 数据 ， 并 计算 该 假设 下 


数据 的 似 然 度 。 在 这 个 例子 里 面 hypo 是 上 一 直列 车 后 经 过 的 时 
间 ，data 是 一 个 包括 lam 和 乘客 数量 的 元 组 。 


数据 的 似 然 度 是 给 定 到 达 率 lam 下 ，x 时 间 内 k 次 列车 抵达 的 概 
率 。 我 们 利用 一 个 泊 松 分 布 的 PMF 来 计算 它 。 


最 后 ，PredictWaitTime 的 定义 是 : 


def PredictwWaitTime(pmf zb, pmf x): 
pmf y = pmf zb - pmf_x 
RemoveNegatives(pmf_y) 


return pmf_y 





pmf_zb 是 列车 间隔 的 分 布 情况 ，pmf_x 是 经 过 时 间 的 分 布 ( 根 据 
对 乘客 数量 的 观察 得 到 ) 。 由 于 y = zb - x， 我 们 可 以 计算 : 


pmf y = pmf zb - pmf x 





减法 运算 和 从 调用 Pmf. sub  ， 其 中 列举 了 所 有 zb 和 x 对 ， 计 算 
其 差 ， 将 结果 加 总 到 pmf_y 。 


由 此 产生 的 Pmf 包 括 一 些 显然 不 可 能 的 负 值 。 例 如 ， 如 果 你 是 在 5 分 
钟 的 间隔 期 间 到 达 的 ， 你 的 等 待 时 间 不 可 能 超过 5 分 
钟 。RemoveNegatives 会 移 除 这 些 不 可 能 的 值 并 重新 归 一 化 。 


def RemoveNegatives(pmf ) : 
for val in pmf.Values() : 
if val < 6: 
pmf.Remove(val) 


pmf.Normalize() 








图 8-3 显 示 了 结果 。x 的 先 验 分 布 和 y 一 样 。x 的 后 验 分 布 表明 ， 看 


到 站 台 上 的 15 名 乘客 后 ， 考 虑 到 目 上 一 趟 车 过 后 的 时 间 大 概 是 5 一 10 分 
钟 ， 所 以 我 们 预计 下 一 班 列 车 会 在 5 分 钟 内 到 达 ， 置 信 度 为 80%。 
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图 8-3 x 的 先 验 分 布 和 后 验 分 布 ， 以 及 预测 的 y 值 


8.5 估计 到 达 率 


到 目前 为 止 的 分 析 基 于 我 们 已 知 〈1) 列车 间隔 的 分 布 《2) 乘客 到 
达 率 的 假设 。 现 在 ， 我 们 已 经 准备 好 开始 处 理 第 二 个 假设 。 


假设 你 刚 搬 到 波士顿 ， 所 以 你 不 了 解 红 线 地 铁 的 乘客 到 达 紊 。 利 用 
几 天 上 下 班 时 间 ， 融 可 以 做 至 少 是 可 量化 的 猜测 。 只 要 再 花 一 点 心思 ， 
你 甚至 可 以 定量 的 估计 4 。 每 一 天 你 到 达 站 台 时 ， 你 应 该 注意 时 间 和 到 
达 乘 客 的 数量 〈 如 有 果 站 台 太 大 ， 你 可 以 选择 一 个 样本 区 域 ) 。 然 后 记录 
目 己 的 等 竺 时间， 以 及 在 你 等 竺 期 间 新 到 站 的 乘客 数量 。 


5 天 后 ， 你 可 能 得 到 这 样 的 数据 : 

















其 中 kl 是 当 你 到 达 时 ， 正 在 等 候 的 乘客 数 ，y 是 你 的 等 待 时 
间 ，k2 为 等 待 期 间 到 达 的 乘客 数量 。 


一 个 多 星期 的 记录 中 ， 你 等 待 时 间 是 18 分 钟 ， 看 到 36 名 乘客 到 达 ， 





因此 可 以 估计 ， 到 达 率 是 每 分 钟 2 名 乘客 。 就 实验 来 说 ， 这 一 佑 计 足 够 
了 ， 但 为 了 完整 起 见 ， 我 会 计算 4 的 后 验 分 布 ， 然 后 演示 怎么 样 在 后 面 
的 分 析 中 利用 该 分 布 。 


ArrivalRate 是 个 代表 A 假设 的 Suite 对 象 。 与 往常 一 
样 ，Likelihood 接收 假设 和 数据 ， 计 算出 假设 下 的 数据 似 然 度 。 


在 例子 里 面 ， 假 设 是 4 的 取 值 。 数 据 是 y 、k 数据 对 ， 其 中 y 是 一 个 
等 待 时间 ，Kk 征 到 达 的 乘客 人 数 。 





class ArrivalRate(thinkbayes.Suite) : 


def Likelihood(self, data, hypo): 
lam = hypo 
y, k = data 
like = thinkbayes.EvalPpoissonpmf(lam * y, k) 
return like 





这 一 Likelihood 看 起 来 很 熟悉 ， 它 和 第 75 页 “预测 等 待 时 间 ” 里 的 
Elapsed.Likelihood 几乎 一 模 一 样 。 区 别 在 于 Elapsed.Likelihood 
里 假设 是 经 过 的 时 间 x ， 在 ArrivalRate.Likelihood 里 假设 是 1am 到 
达 率 。 但 两 个 例子 里 面 ， 似 然 度 都 是 在 已 知 lam 的 条 件 下 ， 一 段 时 间 里 
遇 到 K 个 到 达 ( 乘 客 ) 的 可 能 性 。 


ArrivalRateEstimator 封装 估算 人 的 过 程 。 参 
数 passenger_data ， 是 一 个 包括 k1 ，y ，Kk2 元 素 的 元 组 ， 具 体 数 据 
如 前 文 所 示 。 


class ArrivalRateEstimator(object): 


def _init (self, passenger data): 
low, high = 06, 5 
n = 51 
hypos = numpy.linspace(low, high, n) / 66 


self.prior lam = ArrivalRate(hypos) 

self.post lam = self.prior lam.Copy() 

for k1, y, k2 in passenger_ data: 
self.post lam.Update((y, k2)) 





_init__ 构建 假设 ， 这 是 1am 假设 值 的 序列 ， 然 后 生成 先 验 分 
布 prior_lam 。for 循环 以 数据 更 新 前 验 概率 ， 产 生 后 验 分 
布 post_lam 。 


图 8-4 给 出 了 先 验 和 后 验 分 布 。 正 如 预期 的 那样 ， 均 值 和 中 位 值 都 
在 观察 得 到 的 值 附近 ， 每 分 钟 2 名 乘客 。 但 我 们 不 确定 后 验 分 布 的 范围 








乘客 到 达 率 (乘客 数 / 分 钟 ) 
图 8-4 ”基于 5 天 乘客 数据 的 lam 的 前 验 和 后 验 分 布 





8.6 ”消除 不 确定 性 


无 论 何 时 ， 分 析 中 总 有 一 些 输入 量 市 来 的 不 确定 性 ， 我 们 可 以 通过 
下 面 这 个 步 又 将 这 一 因素 考虑 进来 : 


1. 实现 基于 不 确定 参数 的 确定 值 分 析 (在 本 例 中 是 A ) 。 
2. 计算 不 确定 参数 的 分 布 。 

3. 对 参数 的 每 个 值 进行 分 析 ， 并 生成 一 组 预测 分 布 。 

4. 使 用 参数 分 布 所 对 应 的 权 值 计算 出 预测 分 布 的 混合 分 布 。 


我 们 已 经 完成 了 步骤 1 和 步骤 2。 我 写 了 一 个 
类 WaitMixtureEstimator 处 理 步骤 3 和 步 邓 4。 








class WaitMixtureEstimator(object): 


def _init (self, wtc, are, num passengers=15): 
self.metapmf = thinkbayes.Pmf() 


for lam, prob in sorted(are.post lam.Items()): 
ete = ElapsedTimeEstimator(wtc, lam, num passengers) 
self.metapmf.Set(ete.pmf y, prob) 


self.mixture = thinkbayes.MakeMixture(self.metapmf) 





wtc 是 包含 zb 分 布 的 WaitTimeCalculator 实例 。are 则 是 包含 
了 1am 分 布 的 ArrivalTimeEstimator 实例 。 和 第 一 行 创建 了 一 个 元 Pmf 
来 映射 y 的 可 能 分 布 和 其 概率 。 对 于 lam 的 每 一 个 值 ， 我 们 
用 ElapsedTimeEstimator 计算 y 的 相应 分 布 ， 并 将 其 存储 在 元 Pmf。 
然后 我 们 用 MakeMixture 来 计算 混合 分 


图 8-5 显 示 了 结果 。 背 景 中 的 阴影 线 表示 了 y 对 应 于 lam 每 个 值 的 分 
布 ， 细 线 表示 似 然 度 。 粗 线 是 这 些 分 布 的 混合 分 











0 2 4 6 8 10 
等 待 时 间 (分 钟 ) 


图 8-5 ”对 应 了 lam 所 有 可 能 值 的 y 的 预测 分 布 
在 这 种 情况 下 ， 我 们 可 以 用 lam 的 单 点 估计 得 到 一 个 非常 类 似 的 结 
果 。 因 此 就 实用 而 言 ， 将 估计 的 不 确定 性 包含 进来 不 是 必需 的 。 


在 一 般 情况 下 ， 如 果 系 统 咽 应 是 非 线 性 的 ， 那 么 包括 可 变性 就 很 重 
要 了 。 此 时 ， 输 入 的 微小 变化 都会 引起 输出 的 较 大 变化 ， 而 本 例 
中 ，1am 的 后 验 变 化 很 小 ， 对 于 小 的 扰动 ， 系 统 的 啊 应 近似 线性 。 








8.7 ”决策 分 析 


现在 ， 我 们 可 以 使 用 站 合 上 乘客 人 数 预测 等 竺 时间 的 分 布 了 。 让 我 
们 处 理 问 题 的 第 二 部 分 : 我 应 该 在 何 时 放弃 等 待 列车 去 叫 一 辆 出 租车 ? 


请 记 住 ， 在 初始 的 场景 中 ， 我 会 去 南 站 乘坐 通勤 铁路 。 假 设 我 下 班 
足够 早 ， 所 以 足以 等 待 15 分 钟 在 南 站 乘 车 。 


在 这 种 情况 下 ， 我 想 知道 的 是 “y 超过 15 分 钟 * 作 
为 num_passengers 的 函数 的 概率 。 用 “预测 等 待 时 间 ” 里 的 分 析 方 法 这 
很 容易 。 在 num_passengers 的 区 间 上 运行 这 个 分 析 。 


但 有 一 个 问题 。 该 分 析 对 长 时 间 延 误 的 频次 敏感 ， 而 由 于 长 时 间 延 
误 罕见 ， 因 此 很 难 估计 其 时 间 延 误 友 生 频次 。 


我 只 有 一 周 的 数据 ， 观 察 到 的 最 长 延误 是 15 分 钟 。 所 以 我 无 法 准确 
估计 长 时 间 延 训 的 频次 。 不 过 我 还 是 可 以 使 用 以 前 的 观 等 来 进行 至 少 是 
粗略 的 估计 。 


在 一 年 时 间 乘 坐 红线 的 过 程 中 ， 我 看 到 了 由 于 信号 问题 、 停 电 、 其 
人 所 以 我 估计 大 约 每 年 有 3 次 长 
时 间 延 误 。 


但 请 记 住 我 的 看 法 是 俩 磊 的 。 我 更 倾 问 于 观察 长 时 间 延 误 是 因为 它 
们 影响 了 大 批 乘 客 。 所 以 ， 我 们 应 该 把 我 的 意见 作为 zb 的 样本 ， 而 不 
征 z 的 。 下 面 是 我 们 怎样 做 到 这 一 点 。 


在 乘坐 地 铁通 勤 那 一 年 ， 我 乘坐 红线 约 220 次 。 所 以 我 用 观察 到 的 
间隔 时 间 gap_times 产生 了 220 个 列车 间隔 的 样本 ， 并 计算 它们 的 
Pmf: 

















n = 220 
cdf _z = thinkbayes.MakeCdfFromList (gap_times) 
sample z = cdf z.Sample (ny) 


pmf_z = thinkbayes.MakePmfFromList (sample_z) 





接 下 来 ， 我 偏 置 pmf_z 得 到 zb 的 分 布 情况 ， 抽 取样 本 ， 然 后 添加 
了 30 分 钟 、40 分 钟 和 50 分 钟 的 三 次 延误 《〈 以 秒表 示 ) : 


cdf zp = BiasPmf (pmf z ). MakeCdf() 
sample zb = cdf zp.Sample(n)+ [ 1866 ，2466 ， 3669] 





Cdf.Sample 比 Pmf.Sample 更 高 效 ， 因 而 一 般 会 更 快 地 将 Pmf 转 换 
成 Cdf。 


接 下 来 ， 我 以 zb 的 样本 用 KDE 来 估计 Pdf， 然 后 将 Pdf 转 换 为 Pmf: 


pdf_zb = thinkbayes.EstimatedPdf (sample zb) 
xs = MakeRange(low= 60) 
pmf _zb = pdf_zb.MakePmf (xs) 





最 后 ， 我 反 偏 置 zb 的 分 布 来 获得 z 的 分 布 ， 用 z 创建 


WaitTimeCalculator: 


pmf z = Unbiaspmf (pmf_zb) 
wtc = WaitTimeCalculator (pmf z) 








这 个 过 程 是 复杂 的 ， 但 所 有 的 步骤 都 是 我 们 所 见 过 的 操作 。 现 在 我 
们 准备 进行 计算 一 个 长 时 间 等 待 的 概率 。 
def ProbLongWait(num passengers, minutes): 


ete = ElapsedTimeEstimator(wtc, lam, num_passengers) 
cdf y = ete.pmf_y.MakeCdf() 


prob = 1 - cdf y.Prob(minutes * 60) 





根据 平台 上 的 乘客 人 数 ，ProbLongWait 
用 ElapsedTimeEstimator 提取 等 待 时 间 的 分 布 ， 并 计算 等 待 时 间 超 
过 minutes 的 概率 。 

图 8-6 显 示 了 结果 。 当 乘客 的 数目 小 于 20， 我 们 推 听 系统 运行 正 
常 ， 此 时 长 时 间 延 迟 的 概率 很 小 。 如 果 有 30 名 乘客 ， 我 们 估计 自 上 趟 火 
车 已 经 过 了 15 分 钟 ， 这 比 正 常 延 迟 时 间 长 ， 因 此 我 们 推 朵 出 了 某 些 问 
题 ， 并 预期 会 有 更 长 的 延迟 。 
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图 8-6 ”以 站 台 上 乘客 人 数 为 变量 的 等 待 时 间 超 过 15 分 钟 的 概率 函数 
如 果 能 接受 有 10% 的 概率 会 错过 南 站 列车 ， 又 当 有 不 到 30 名 乘客 的 


人 但 如 果 发 现 乘客 更 多 的 话 ， 应 选择 乘坐 
租车 。 


或 者 ， 进 一 步 分 析 ， 我 们 可 以 量化 错过 南 站 列车 的 成 本 和 乘坐 出 租 
车 的 费用 ， 然 后 选择 最 小 化 预期 成 本 的 闵 值 。 


8.8 讨论 


分 析 到 目前 为 止 一 直 基于 一 个 假设 ， 即 乘客 的 到 达 率 每 天 是 相同 
的 ， 对 于 高 峰 时 段 的 通勤 列车 ， 这 可 能 不 是 一 个 坏 假设 ， 但 也 有 一 些 明 
显 的 例外 。 例 如 ， 如 果 附 近 有 一 个 特殊 的 事件 ， 大 量 的 乘客 可 能 同时 到 
达 。 在 这 种 情况 下 ，1am 的 估计 就 会 太 低 ， 所 以 x 和 y 的 估计 会 太 高 。 


如 采 特 殊 事 件 和 重大 延误 一 样 利 见 ， 将 它们 包括 进 模型 束 很 重要 。 





dy 


我 们 是 从 假设 已 知 z 的 分 布 开始 的 。 另 一 个 办 法 是 乘客 可 以 估算 z 
， 但 这 也 不 容易 。 作 为 乘客 ， 你 只 能 观察 到 自己 的 等 待 时 间 y 。 除 非 你 
ee 等 第 二 辆 到 站 ， 人 否则 你 就 不 能 直接 观测 到 列车 
间隔 z 。 


不 过 ， 我 们 可 以 做 出 zb 的 一 些 推论 。 如 果 我 们 注意 上 自己 抵达 车 站 
时 的 乘客 人 数 ， 我 们 可 以 估算 自 上 一 趟 车 后 所 过 去 的 时 间 x ， 然 后 观察 
y 。 如 果 我 们 把 x 的 后 验 分 布 与 观测 到 的 y 相 加 ， 就 得 到 了 表示 zb 观测 
值 的 后 验 信念 的 分 布 。 


我 们 可 以 利用 这 个 分 布 来 修正 我 们 对 zb 的 分 布 信和 度 。 最 终 可 以 通 
过 反 向 计算 BiasPmf 从 zb 得 到 z 的 分 布 。 


我 留 下 一 个 分 析 练 习 给 读者 。 建 议 : 阅读 第 15 章 。 你 可 以 在 
http:/thinkbayes.com/redline.py 找到 解法 的 梗概 。 欲 了 解 更 多 信息 ， 请 参 
见 前 言 的 “代码 指南 ”。 














8.9 练习 
练习 8-1。 
这 一 练习 来 自 麦 凯 《 人 信息论、 推理 和 学 习 算 法 》 一 书 : 


有 不 稳定 的 粒子 从 一 个 源 上 射出 ， 并 于 距离 源 x 的 位 置 上 衰 
减 ，x 是 含有 参数 A 的 指数 概率 分 布 。 衰 变 只 有 在 x = 1 厘米 到 x = 20 
厘米 的 窗口 内 才能 被 观察 到 。 如 采 在 距离 1.5 厘 米 、2 厘 米 、3 悍 
米 、4 厘 米 、5 厘 米 、12 厘 米 处 观测 到 N 个 可 变 ，A 的 后 验 分 布 是 什 


么 ” 








你 可 以 从 http:Mthninkbayes.comydecay.py 下 载 这 个 练习 的 解法 。 


第 9 章 ”二 维 问 题 
9.1 彩 弹 


彩 弹 射击 运动 中 ， 参 赛 队 伍 用 彩 弹 互相 射击 ， 用 涂料 填充 的 彩 弹 命 
中 时 会 破碎 。 这 一 运动 通常 在 一 个 安置 了 障碍 和 其 他 可 作为 担 护 物体 的 
区 域 中 进行 。 


假设 你 在 一 个 宽 30 英 矿 长 50 英 矿 的 室内 场地 玩 彩 弹 ， 人 靠近 一 面 30 英 
尺 的 墙壁 站 着 ,怀疑 你 的 对 手 之 一 到 了 墙角 附近 。 沿 着 增 壁 ， 你 看 到 几 
个 有 相同 颜色 的 彩 弹 痕迹 ， 可 以 认为 你 的 对 手 刚 刚 开 火 了 。 


彩 弹 痕迹 是 在 治 着 左下 角 墙 角 15 贡 厂 、16 英 矿 、18 英 矿 和 21 灿 矿 
处 。 根 据 这 些 数据 ， 你 认为 你 的 对 手 舱 藏 的 位 置 在 哪里 ? 


图 9-1 显 示 了 场地 的 平面 图 。 以 房间 的 左下 角 为 原点 。 我 以 w 和 6 
作为 射击 方 的 未 知 位 置 坐 标 ， 或 称 为 alpha 和 beta 。 彩 弹痕 迹 位 置 被 
标记 为 x 。 对 手 射 击 的 角度 为 8 或 theta 。 




















图 9-1 彩 弹 问题 布局 图 


该 彩 弹 问 题 是 贝 叶 斯 分 析 案 例 中 第 见 的 灯塔 问题 的 一 个 修改 版 本 ， 
我 的 标注 依据 了 D.S.Sivia 在 一 《数据 分 析 : 贝 叶 斯 教程 〈 第 二 版 ) 》 
(牛津 出 版 社 ，2006 年 ) 书 中 对 于 该 问题 的 介绍 。 


你 可 以 从 http:/thinkbayes.com/paintball.py 下 载 本 章 代码 。 更 多 信 
恩 请 参见 前 言 的 “代码 指南 ”。 


9.2 ”Suite 对 象 


首先 ， 我 们 需要 一 个 Suite 对 象 来 表示 一 组 有 关 比 赛 对 手 位 置 的 假 
设 。 每 个 假设 是 一 对 坐标 : (alpha ，beta )。 


下 面 是 彩 弹 Suite 对 象 的 定义 : 


class Paintball(thinkbayes.Suite, thinkbayes.Joint): 


def _init (self, alphas, betas, locations): 
self.locations = locations 
pairs = [(alpha, beta) 
for alpha in alphas 
for beta in betas] 
thinkbayes.Suite. init (self, pairs) 





Paintball 继承 自我 们 见 过 的 Suite 对 象 ， 至 于 Joint 我 会 马上 开 


台 介 绍 。 


alphas 是 alpha 所 有 可 能 值 的 列表 ，betas 是 beta 值 的 列 
表 。pairs 是 所 有 的 “(alpha ，bata ) 对 的 列表 。1locations 是 沿 墙 
的 可 能 位 置 列表 ， 它 被 存储 在 Likelihood 中 以 便 后 面 使 用 。 


房间 为 30 英 乒 宽 ，50 英 矿 长 ， 下 面 是 一 个 创建 该 Suite 对 象 的 代码 : 





alphas = range(6，31) 
betas = range(1, 51) 
locations = range(6，31) 


suite = Paintball(alphas, betas, locations) 





这 个 先 验 分 布 假设 房间 里 的 所 有 位 置 都 等 可 能 。 己 知 房间 的 地 图 
后 ， 我 们 可 选择 一 个 更 详细 的 先 验 分 布 ， 但 我 们 先 从 简单 情况 的 开始 。 


9.3 三 角 学 


现在 我 们 需要 一 个 似 然 函 数 ， 这 意味 独 我 们 必须 弄 清楚 在 已 知 对 手 
的 位 置 后 ， 他 击 中 任意 一 个 沿 着 墙壁 的 位 置 点 的 似 然 度 。 

作为 一 个 简化 模型 ， 假 设 对 手 像 一 个 旋转 着 的 炮塔 ， 回 任意 方向 册 
击 的 可 能 性 相同 。 在 这 种 情况 下 ， 他 最 有 可 能 打 中 墙壁 的 alpha 位 置 ， 
击 中 远离 alpha 的 位 置 可 能 性 较 小 。 


利用 一 些 三 角 学 知识 ， 我 们 可 以 计算 击 中 任意 党 着 墙壁 点 上 概率 。 
试想 一 下 ， 射 手 以 角度 6 射击 ， 彩 弹 会 击 中 墙 上 的 位 置 x ， 其 中 


TI—a= /jtang 
解 这 个 方程 得 到 9 值 


1 = 
9 = tan 
7 4 


因此 ， 己 知 墙 上 某 个 位 置 ， 我 们 可 以 求 出 0 。 
取 第 一 方程 相对 于 9 的 导数 


dir 了 

















do cos20 


这 个 导数 我 称 之 为 "扫射 速度 "”， 这 是 目标 随 痢 6 增加 而 沿 着 增 运 动 
人 





如 果 我 们 知道 射手 的 坐标 和 墙 辟 上 的 一 个 位 置 ， 我 们 就 可 以 计算 出 
扫射 速度 : 





def StrafingSpeed(alpha, beta, x): 
theta = math.atan2(x - alpha, beta) 
speed = beta / math.cos(theta)**2 
return speed 


[L 


alpha 和 beta 是 射手 的 坐标 ;， x 是 一 个 彩 弹 的 位 置 。 结 果 是 x 相对 
于 theta 的 导数 。 


现在 ， 我 们 可 以 计算 出 表示 击 中 任何 位 置 概率 的 Pmf 
了 。MakeLocationPmf 接收 的 参数 是 射手 的 坐标 alp1a 和 beta ; 彩 弹 
命中 的 位 置 Locations (一 个 Locations 可 能 值 的 列表 ) 。 








def MakeLocationpmf(alpha, beta, locations): 
pmf = thinkbayes .Pmf() 
for x in locations: 
prob = 1.6 / StrafingSpeed(alpha, beta, x) 
pmf.Set(x, prob) 


pmf.Normalize() 
return pmf 





MakeLocationPmf 计算 出 了 击 中 墙 上 每 个 位 置 的 概率 ， 其 反比 于 
扫射 速度 。 其 结果 是 位 置 的 Pmf 和 它们 的 概率 。 


图 9-2 显 示 了 用 alpha=16 和 一 系列 的 beta 值 计算 的 Pmf 值 。 对 于 测 
ny 最 有 可 能 的 位 置 为 x = 186 ;， 随 着 beta 的 增加 ，Pmf 范 转 
也 会 扩大， 
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距离 


用 alpha=10 和 一 系列 的 beta 值 计算 的 PMF 值 





25 





30 


9.4 似 然 度 


现在 我 们 需要 一 个 似 然 函数 。 在 给 定 对 手 的 坐标 的 情况 下 ， 我 们 可 
以 使 用 MakeLocationPmf 计算 任意 x 的 似 然 度 。 


def Likelihood(self, data, hypo): 
alpha, beta = hypo 
x = data 
pmf = MakeLocationpmf(alpha, beta, self.1locations) 


like = pmf.Prob(x) 
return like 





再 强调 下 ，alpha 和 beta 是 射手 的 假想 坐标 ，x 是 彩 弹 命中 痕迹 
位置。 


pmf 包含 了 给 出 射手 的 坐标 时 墙 上 每 个 位 置 点 的 概率 。 从 Pmf 我 们 
可 以 得 到 观察 到 的 彩 弹 位 置 的 概率 。 


大 功 告 成 。 要 更 新 Suite 对 象 ， 我 们 可 以 使 用 继承 自 Suite 的 
UpdateSet 。 





suite.Updateset ([ 15 ，16 ，18 ，21 ]) 





其 结果 是 一 个 映射 每 个 (alpha ，beta ) 到 一 个 后 验 概率 的 分 
布 。 


9.5 ”联合 分 布 

当 分 布 的 每 个 值 都 是 一 个 元 组 变量 时 ， 被 称 为 联合 分 布 。 它 代表 
了 多 个 变量 的 分 布 ， 这 正 是 “联合 ”的 含义 。 联 合 分 布 包含 了 变量 的 分 布 
以 及 变量 间 的 关系 。 


给 定 一 个 联合 分 布 ， 我 们 可 以 计算 每 个 变量 的 独立 分 布 ， 这 被 称 为 
边缘 分 布 〈marginal distribution ) 。 


thinkbayes.Joint 提供 了 计算 边缘 分 布 的 方法 : 











# class Joint : 


def Marginal(self, i): 
pmf = Pmf() 
for vs, prob in self.Items() : 


pmf.Incr(vs[i], prob) 
return pmf 





i 是 我 们 想 要 的 变量 的 索引 ， 在 该 示例 中 i = 6 表示 alpha 分 
布 i = 1 表示 beta 分 布 。 


下 面 是 提取 边缘 分 布 的 代码 : 


marginal alpha = suite.Marginal (6) 
marginal beta = suite.Marginal (1) 








图 9-3 显 示 了 结果 (转换 为 CDFs) 。 对 于 alpha ， 中 值 是 18， 就 在 
观察 到 的 彩 弹 数据 集 的 中 心 附近 。 对 于 beta ， 最 可 能 的 值 靠近 墙壁 
(<10) ， 而 10 英 尺 外 的 分 布 几乎 是 均匀 的 ， 这 恰好 表明 了 在 这 些 可 能 
位 置 间 的 数据 非常 不 起 眼 〈 即 可 能 性 不 高 ) 。 


概率 值 
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距离 
图 9-3 已 知 数据 后 ，alpha 和 beta 的 后 验 CDF 曲 线 


给 定 的 后 验 的 边缘 ， 我 们 可 以 分 别 为 每 个 坐标 计算 置信 区 间 : 

















print "alpha CI ' , marginal alpha.CredibleInterval(50) 
print "beta CI ' , marginal beta.CredibleInterval(50) 





对 于 alpha ，50% 置 信 区 间 为 (14，21) ，beta 是 (5，31) 。 所 以 
数据 提供 的 证 据 表 明 射 手 处 在 房间 内 的 近 侧 。 但 这 还 不 是 强 证 据 ， 因 为 








909% 置 信 区 间 已 经 履 冲 了 房间 的 大 部 分 区 域 ! 


9.6 条件 分 布 


a 表示 了 有 关 变 量 各 目的 信息 ， 但 它 没 有 捕捉 变量 之 间 的 依 
咒 关 系 。 


可 视 化 其 依赖 关系 的 一 种 方法 是 通过 计算 条 件 分 布 
。thinkbayes.Joint 提供 了 一 个 方法 : 








def Conditional(self, i, j, val): 
pmf = Pmf() 
for vs, prob in self.Items(): 
if vs[j] != val: continue 
pmf.Incr(vs[i], prob) 


pmf.Normalize() 
return pmf 











同样 的 ， 守 是 我 们 想 要 的 变量 的 索引 ; 了 J 了 是 调节 变量 的 索引 ，val 
是 有 条 件 值 。 


其 结果 是 第 1 个 变量 在 第 了 个 变量 值 是 val 这 一 条 件 下 的 下 的 分 


例如 ， 下 面 的 代码 计算 alpha 在 一 定 beta 范围 下 的 分 布 : 


betas = [16，26，406] 


for beta in betas: 


cond = suite.Conditional(06, 1, beta) 








图 9-4 显 示 了 结果 ， 我 们 可 以 将 其 完整 地 表述 为 "条件 边缘 的 后 验 分 


布 ”(posterior conditional marginal distribution ) 。 





图 9-4 ”以 数 个 beta 数 据 为 条 件 的 ，alpha 的 后 验 概率 分 布 曲线 


如 末 该 变量 是 独立 的 ， 条 件 分 布 束 会 相同 。 但 因为 它们 (条件 分 
布 ) 不 同 ， 我 们 因此 可 以 说 变量 是 相关 的 。 


例如 ， 如 果 已 知 beta = 16 ，alpha 的 条 件 分 布 范 围 就 相当 狭窄。 
而 对 于 较 大 的 beta 值 ，alpha 的 分 布 范围 就 较 宽 。 





9.7 置信 区 间 


为 一 种 可 视 化 后 验 联 合 分 布 的 方式 是 计算 置信 区 间 。 妆 我 们 在 第 23 
页 讨论 “置信 区 间 ” 的 时 候 ， 我 略 过 了 一 个 微妙 信息 点 ， 对 于 给 定 的 分 
布 ， 有 很 多 具备 相同 置信 度 的 区 间 。 例 如 ， 如 果 你 想 有 一 个 50% 的 可 信 
区 间 ， 你 可 以 选择 任意 一 组 值 的 累加 起 来 是 50% 的 概率 值 。 


当 该 值 是 一 维 的 ， 最 常见 的 是 选择 中 心 的 置信 区 间 ， 例 如 ， 中 央 
50% 置 信 区 间 包 含 了 第 25 和 第 75 百 分 位 数 的 所 有 值 。 

在 多 个 维度 情况 下 ， 什 么 是 正确 的 置信 区 间 并 非 显 而 易 见 。 最 好 的 
选择 可 能 要 取决 于 上 下 文 ， 但 一 个 常用 的 选择 是 最 大 似 然 置信 区 间 ， 其 
中 包含 了 累加 为 50% 的 最 有 可 能 的 值 (或 一 些 其 他 百分比 数 ) 。 


thinkbayes .Joint 提供 了 计算 最 大 似 然 置 信 区 间 的 方法 : 














# class Joint: 


def MaxLikeInterval(self, percentage=90): 


interval = [|] 
total = 6 


t = [(prob, val) for val，prob in self.Items()] 
t.sort(reverse=True) 


for prob, val in t: 
interval.append(val) 
total += prob 
if total >= percentage/1060.0: 
break 


return interval 





第 一 步 是 在 Suite 中 创建 一 个 包含 所 有 值 的 列表 ， 以 概率 值 递减 顺序 
存储 。 接 着 过 历 列表 ， 从 高 到 低 累加 概率 直到 超过 预 设 百分比 
percentage 。 这 一 步 的 结果 是 从 Suite 对 象 得 到 的 值 列表 。 请 注意 ， 这 
组 值 不 一 定 是 连续 的 。 











我 写 了 一 个 函数 ， 根 据 每 个 区 间 的 出 现 次 数 为 
每 个 概率 值 “ 着 色 ”: 





def MakeCrediblePlot(suite) : 
d=dict((pair，6) for pair in suite.Values()) 


percentages = [75，56，25] 
for p in percentages : 
interval = Suite.MaxLikeInterval(p) 
for pair in interval : 
d[pair] += 1 


return d 





d 是 一 个 在 Suite 中 将 每 个 概率 值 和 其 所 在 区 间 次 数 进行 映射 的 字 
典 。 循 环 部 分 的 代码 进行 这 些 区 间 计 算 并 修改 d 。 


图 9-5 显 示 了 结果 。259% 置 信 区 间 为 徘 近 载 治 的 最 蜡 区 域 。 对 于 更 大 
的 百分比 ， 置 信 区 间 更 大 并 且 偶 癌 房间 的 右 侧 。 
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图 9-5 ”对 手 坐 标的 置信 区 间 
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9.8 讨论 

本 章 的 内 容 说 明了 前 几 章 里 提 到 的 贝 叶 斯 框架 可 扩展 到 处 理 二 维 参 
数 空间 。 唯 一 的 区 别 在 于 ， 每 个 假设 由 参数 元 组 来 表示 。 

我 还 介绍 了 Joint 对 象 ， 这 是 一 个 提供 了 联合 分 布 计算 方法 的 父 
类 ， 可 用 于 计算 Marginal ，Conditional ， 还 有 MakeLikeInterval 


等 联合 分 布 。 以 面 同 对 象 的 概念 来 说 ，Joint 对 象 是 一 个 混入 对 象 〈 见 
http://en.wikipedia.org/wiki/Mixin ) 。 


本 章 中 出 现 了 很 多 新 的 词汇 ， 让 我 们 来 回顾 下 。 

联合 分 布 : 

表示 在 多 维 空间 中 所 有 可 能 值 和 它们 的 概率 。 本 章 中 的 例子 是 由 人 举 
标 alpha 和 beta 构成 的 二 维 空间 。 联 合 分 布 代 表 了 每 一 个 (alpha 
，beta ) 对 的 概率 。 

边缘 分 布 : 

联合 分 布 中 ， 某 个 参数 在 其 他 参数 未 知情 况 下 的 分 布 ， 例 如 图 9-3 
展示 的 各 自 独 立 的 alpha 分 布 和 beta 分 布 。 

条 件 分 布 : 


在 一 个 联合 分 布 中 。 给 定 一 个 或 者 多 个 其 他 参数 条 件 的 情况 下 ， 某 
ee 
ai 




















已 知 联合 分 布 ， 可 以 计算 出 边际 和 条 件 分 布 。 有 了 足够 的 条 件 分 布 
言 思 ， 可 以 全 少 是 近似 地 重建 联合 分 布 。 但 已 知 边 际 分 布 不 能 重新 建立 
联合 分 布 ， 因 为 已 经 丢失 了 变量 之 间 相 关 性 的 信息 。 


如 果 对 两 个 参数 都 有 n 个 可 能 的 值 ， 在 联合 分 布 中 的 大 多 数 操作 需 
要 的 是 与 n“ 成 正比 的 运算 时 间 。 如 果 还 有 参数 d ， 运 行 时 间 正 比 于 ma ， 
而 且 随 着 维 数 的 增加 ， 迅 速 地 变 得 不 实用 。 





如 果 你 要 在 合理 时 间 内 处 理 上 百 万 个 假设 值 ， 这 些 情况 是 可 行 的 : 
2 个 维度 ， 每 个 参数 有 1000 个 可 能 值 ; 或 3 个 维度 ， 每 个 参数 100 个 可 能 
值 ， 或 6 个 维度 ， 每 个 参数 10 个 值 。 


如 条 需 要 处 理 更 多 维度 ， 或 每 个 维度 上 更 多 值 ， 可 以 试 试 其 他 的 优 
化 。 我 在 第 15 章 提供 了 一 个 例子 。 


你 可 以 从 http:Nthinkbayes.com/paintball.py 下 载 代 码 。 更 多 信息 ， 
请 参见 前 言 的 “代码 指南 ”。 


9.9 练习 
练习 9-1。 


在 我 们 的 简单 模型 中 ， 对 手 从 任何 方向 射击 都 有 同等 的 可 能 。 作 为 
练习 ， 我 们 来 考虑 改进 这 一 模型 。 


本 和 章 的 分 析 表 明 射 手 取 有 可 能 对 增 的 近 应 射击 。 但 在 现实 中 ， 如 末 
对 手 徘 近 增 壁 ， 因 为 他 不 可 能 看 到 自己 和 墙壁 之 间 的 目标 ， 所 以 也 不 大 
可 能 射击 到 墙 上 。 


设计 一 个 改进 的 模型 ， 将 这 种 行为 考虑 在 内 。 尝 试 找到 一 种 更 真实 
的 模型 ， 但 不 要 太 复 林 。 














第 10 章 ” 贝 叶 斯 近似 计算 
10.1 变异 性 假说 


我 对 古怪 科学 有 些 偏爱 。 最 近 我 访问 了 Norumbega 塔 ， 这 是 一 个 埃 
本 .诺顿 . 霍 斯 福 德 奇怪 理论 的 不 朽 纪念 碑 ， 它 是 双 效 发 酵 粉 和 硕 品 史 的 
发 明 者 。 不 过 这 不 是 本 章 要 讨论 的 。 


本 章 是 关于 变异 性 假说 ， 即 


“最 早 在 19 世 纪 初 叶 ， 约 允 . 梅 克 尔 认为 男性 的 能 力 范 围 大 于 女 
性 ， 尤 其 在 智商 上 。 换 句 话 说 ， 他 相信 天 才 和 弱 关 人 口中 ， 男 性 占 
绝 大 多 数 。 梅 元 尔 断 言 女性 缺少 变 腊 性 正 是 较为 低级 的 表现 ， 所 以 
他 觉得 男性 是 “优越 生物 *。” 





来 目 http:/en.wikipedia.org/wiki/Variability_hypothesis 。 


我 尤其 喜欢 最 后 那 部 分 ， 因 为 我 怀疑 ， 如 果 事 实 能 证 明 女 性 的 变 腊 
性 实际 上 更 大 ， 梅 元 尔 也 会 把 这 作为 较 低 级 的 标志 。 无 论 如 何 ， 你 总 能 
听 到 变异 性 假说 的 证 据 站 不 住 脚 的 说 法 。 


不 过 ， 最 近 我 在 课 上 检查 来 自 CDC 的 危险 因素 监测 系统 (BRFSS) 
的 数据 ， 尤 其 是 自我 提交 的 成 年 美国 男性 和 女性 的 高 度数 据 时 ， 也 过 到 
0 i 
们 的 发 现 : 


。 男性 平均 身高 为 178 厘 米 ; 女性 平均 身高 为 163 厘 米 ， 所 以 从 平均 值 
看 男人 高 大 ， 这 守 不 奇怪 。 

。 男性 身高 数据 的 标准 偏差 是 7.7 厘 米 ;， 女性 是 7.3 厘 米 ， 因 此 ， 从 绝 
对 值 上 看 ， 男 性 身高 的 变异 性 更 大 些 。 

e。 但 是 为 了 比较 组 间 数 据 的 变异 性 ， 采 用 变异 系数 〈Coefficient of 
Variation，CV) 更 有 意义 ， 即 标准 偏差 除 以 平均 值 。 相 对 于 刻度 而 
言 ， 这 是 变异 性 的 一 个 量 纲 无 关 的 衡量 值 。 对 于 男性 CV 为 0.0433; 
对 于 女性 CV 是 0.0444。 

















这 就 很 徘 谱 了 ， 所 以 我 们 可 以 得 出 结论 ， 此 数据 集 提供 了 有 力 的 证 
据 反 对 变异 性 假说 。 但 是 我 们 还 可 以 用 贝 叶 斯 方法 得 到 更 精确 的 结论 ， 
在 回答 这 个 问题 的 过 程 中 ， 我 还 有 机 会 来 沽 示 一 些 处 理 大 数据 集 的 技 
巧 。 


我 以 下 面 几 个 步 又 进行 : 


1. 我 们 先 从 最 简单 的 实现 开始 ， 不 过 它 仅 适用 于 小 于 1000 个 值 的 
数据 集 。 
人 


3. 最 后 ， 我 们 以 近似 贝 叶 斯 计算 加 快 计算 过 程 ， 它 也 被 称 为 
ABC (Approximate Bayesian Computation) 。 





你 可 以 从 http:/Nthinkbayes.com/variability.py 下 载 本 章 中 的 代码 。 欲 
了 解 更 多 信息 ， 请 参见 前 言 的 “代码 指南 ”。 


10.2 ”均值 和 标准 产 


在 第 9 章 我 们 通过 联合 分 布 同 时 估算 了 两 个 参数 。 在 本 章 中 ， 我 们 
用 同样 的 方法 来 估计 高 斯 分 布 的 参数 : 均值 nu ， 标 准 差 sigma 。 


就 这 个 问题 ， 我 定义 了 一 个 名 为 height 的 Suite 对 象 ， 其 表示 每 一 
个 mu, sigma 对 到 其 概率 的 映射 : 


class Height(thinkbayes.Suite, thinkbayes.Joint): 


def init (self, mus, sigmas): 
thinkbayes.Suite. init (self) 


pairs = [(mu, sigma) 
for mu in mus 


for sigma in sigmas] 


thinkbayes.Suite. init (self, pairs) 





mus 是 mu 值 的 一 个 序列 ，sigmas 的 是 sigma 值 的 一 个 序列 。 所 
有 mu ，sigma 对 的 先 验 分 布 是 一 个 均匀 分 布 。 


似 然 函数 容易 得 出 ， 考 虑 到 mu 和 sigma 的 假定 值 ， 我 们 计算 某 一 


个 特定 值 x 的 似 然 度 。EvalGaussianpdf 的 作用 ， 就 是 这 个 ， 因 此 我 们 
要 做 的 就 是 使 用 它 : 
# class Height 

def Likelihood(self, data, hypo): 


x = data 
mu, sigma = hypo 


like = thinkbayes.EvalGaussianpdf(x, mu, sigma) 
return like 





如 果 曾 经 从 数学 的 角度 学 习 过 统计 学 ， 你 知道 当 进行 PDF 佑 计时 得 
到 的 是 概率 密度 。 为 了 得 到 一 个 概率 ， 你 必须 在 一 定 范围 上 对 概率 密度 


积分 。 


但 就 我 们 的 目的 来 说 ， 我 们 其 实 不 需要 概率 ， 只 是 需要 一 些 正 比 于 
所 求 概率 的 量 ， 概 率 密度 就 挺 合适 。 这 个 问题 最 难 的 部 分 是 选择 mus 和 
sigmas 的 合适 范围 。 如 果 范 围 太 小 ， 会 包 略 了 一 些 值得 注意 的 概率 
值 ， 导 致 得 到 错误 结果 。 如 有 宁 范 围 太 大 ， 尽 管 可 以 得 到 正确 的 答案 ， 但 
古 日 白浪 费 了 计算 能 


所 以 在 这 里 有 机 会 利用 经 典 的 估计 方法 ， 让 贝 叶 斯 方法 更 高 效 。 具 
体 说 ， 我 们 可 以 用 经 典 的 估计 量 找到 mu 和 sigma 的 最 可 能 位 置 ， 并 利 
用 这 些 估计 的 标准 误差 来 选择 一 个 可 能 的 范围 。 如 果 分 布 的 实际 参数 是 
HW 和 go ， 我 们 取 个 值 的 一 个 样本 , 的 估计 量 就 是 样本 的 均值 m 。 


0 的 估计 量 是 样本 的 标准 方差 ，s 。 
对 4 的 估计 的 标准 误差 为 /Vn ， 而 对 o 的 估计 的 标准 误差 为 


s/Vin -1)., 




















下 面 就 是 所 有 相关 计算 的 代码 : 


def FindPriorRanges(xs, num points, num_ stderrs=3.0): 


# compute m and s 

n = len(xs) 

m = numpy .mean(xs) 
s = numpy.std(xs) 


# compute ranges for m and s 
stderr m = s / math.sqrt(n) 


mus = MakeRange(m, stderr_m) 


stderr s = s / math.sqrt(2 * (n-1)) 
sigmas = MakeRange(s, stderr_ s) 


return mus, sigmas 





xs 是 数据 集 。num_points 是 取 值 范围 内 所 需 的 值 的 个 
数 。num_stderrs 是 估计 量 两 侧 该 范围 的 宽度 ， 以 标准 误差 计 。 


返回 值 是 mu 和 sigma 数值 对 构成 的 一 个 序列 。 
MakeRange 如 下 : 


def MakeRange(estimate, stderr): 
spread = stderr * num stderrs 
array = numpy.linspace(estimate-spread, 
estimate+spread， 


num_points) 


return array 








numpy .1inspace 创建 一 个 由 等 距 分 隔 的 元 素 构成 的 数组 ， 
在 estimate-spread 和 estimate+spread 区 间 上 ， 包 括 左 右 两 端的 
值 。 


10.3 ”更 新 
最 后 ， 下 面 是 创建 和 更 新 Suite 对 象 的 代码 ; 


mus, sigmas = FindPriorRanges(xs，num_points) 
suite = Height(mus, sigmas) 
suite.UpdateSet(xs) 


print suite.MaximumLikelihood() 





根据 数据 来 选择 先 验 分 布 的 范围 ， 接 着 义 利 用 这 些 数据 再 次 做 了 更 
新 ， 这 个 过 程 多 少 有 些 作伪 。 通 常 来 说 ， 两 次 利用 了 相同 的 数据 ， 事 实 
上 的 确 是 作伪 。 


但 在 这 个 例子 里 是 可 以 的 。 的 确 ， 我 们 用 数据 来 选择 先 验 的 范围 ， 
但 这 只 是 为 了 避免 计算 数量 很 大 、 值 却 微乎其微 的 概率 。 给 定 
num_stderrs = 4 ， 范 围 就 已 经 足以 覆盖 所 有 值得 考虑 的 似 然 度 了 ， 
随后 再 扩大 范围 对 结果 也 毫 无 影响 。 


实际 上 ，mu 和 sigma 的 所 有 值 上 ， 先 验 都 是 均匀 分 布 的 ， 但 为 了 
计算 效率 我 们 忽略 了 所 有 不 重要 的 值 。 

















10.4 CV 的 后 验 分 布 


一 旦 有 了 mu 和 sigma 的 后 验 联 合 分布 ， 我 们 就 可 以 计算 出 男女 的 
CV 分 布 ， 自 然 地 ， 其 中 一 个 的 概率 会 超过 男 外 一 个 的 概率 。 


为 了 计算 CV 的 分 布 ， 我 们 枚 举 mu 和 sigma 的 数值 对 : 


def CoefVariation(suite): 
pmf = thinkbayes .Pmf() 
for (mu, sigma), p in suite.Items(): 
pmf.Incr(sigma/mu, p) 


return pmf 





然后 我 们 用 thinkbayes .PmfProbGreater 来 计算 男性 有 更 多 变异 
性 的 概率 。 


分 析 本 刁 很 简单 ， 但 还 有 两 个 额外 的 我 们 必须 处 理 的 问题 。 


1. 随 着 数据 集 大 小 的 增加 ， 我 们 碰 到 了 一 系列 由 于 浮 点 运算 限制 
市 来 的 计算 问题 。 


2， 该 数据 集 包 含 了 一 些 几 乎 肯定 不 对 的 极端 值 。 我 们 需要 让 估计 
过 程 在 遇 到 这 些 异 币值 时 也 古 健壮 的 。 


以 下 各 节 将 解释 这 些 问题 及 其 解决 方案 。 





10.5 数据 下 次 


如 休 从 BRFSS 数 据 集 选择 前 100 个 值 进行 我 所 说 的 分 析 ， 程 序 将 会 
运行 正常 ， 而 且 得 到 看 起 来 合理 的 后 验 分 布 。 


如 果 我 们 选择 前 1000 个 的 值 ， 然 后 再 次 运行 程序 ， 我 们 将 从 


Pmf.Normalize 得 到 一 个 错误 : 


ValueError: total probability is zero. 


这 个 问题 在 于 我 们 使 用 概率 密度 来 计算 似 然 有 形 ， 而 连续 分 布 密 度 往 
往 很 小 。 如 果 你 把 1000 个 值 相 乘 ， 其 结果 将 是 非常 小 的 。 在 这 个 例子 
里 ， 其 值 甚至 小 到 不 能 由 一 个 浮 点 数 来 表示 ， 所 以 被 同 下 售 入 到 零 ， 这 
被 称 为 下 洲 。 而 如 果 分 布 的 所 有 概率 是 0， 也 就 不 再 成 其 为 一 个 分 布 。 


一 种 可 能 的 解决 方案 是 每 次 更 新 后 重新 归 一 化 Pmf， 或 者 每 批 计算 
100 个 值 ， 这 样 就 正常 了 ， 但 很 慢 。 


一 个 更 好 的 选择 是 以 对 数 变 换 来 计算 似 然 度 。 这 样 一 来 就 不 是 将 较 
小 值 相 乘 ， 而 是 将 对 数值 相 加 了 。Pmf 提供 了 Log 、LogUpdateSet 和 
Exp 方法 ， 使 这 个 过 程 变 得 简单 。 


Log 计算 Pmf 中 概率 的 对 数 : 














# class Pmf 


def Log(self): 
m = self.MaxLike() 
for x, p in self.d.iteritems(): 
if p: 


self.Set(x, math.log(p/m)) 
else: 
self.Remove(X) 








在 应 用 Log 进行 对 数 变 换 前 ， 使 用 MaxLike 找到 m 一 一 Pmf 中 最 高 
的 概率 值 。 把 所 有 概率 除 以 m ， 所 以 最 高 概率 被 归 一 化 为 1， 这 将 得 到 
下 其 他 日 志 概 率 均 为 负 值 。 如 果 Pmf 中 有 任何 值 的 概率 为 
0， 它们 。 


然而 Pmf 是 基于 对 数 变 换 的 ， 我 们 不 能 使 用 Update 、UpdateSet 
或 Normalize 。 人 否则 其 结果 将 没有 意义 ;如果 你 这 么 用 ，Pmf 会 引发 异 
常 。 相 反 ， 我 们 必须 使 用 LogUpdate 和 LogUpdateSet 。 











下 面 是 LogUpdateSet 的 实现 : 


# class Suite 


def LogUpdateSet(self, dataset): 
for data in dataset: 


self.LogUpdate(data) 





LogUpdateSet 遍历 数据 并 调用 LogUpdate : 


# class Suite 


def LogUpdate(self, data): 
for hypo in self.Values(): 
like = self.LogLikelihood(data, hypo) 
self.Incr(hypo, like) 





LogUpdate 类 似 Update ， 不 同 的 是 它 调 用 Loglikelihood 而 不 
是 Likelihood ，Incr 而 不 是 Mult 。 


采用 对 数 似 然 避 免 了 下 洲 的 问题 ， 但 同时 Pmf 只 是 进行 对 数 变 换 ， 
没有 更 多 作用 了。 我 们 还 必须 使 用 Exp 来 转 置 这 一 变换 过 程 : 








# class Pmf 


def Exp(self): 


m = Self.MaxLike() 
for x, p in self.d.iteritems() : 
self.Set(x, math.exp(p-m)) 





如 打 对 数 似 然 度 是 一 个 大 的 负数 ， 得 到 的 似 然 值 有 可 能 下 深 。 所 以 
Exp 寻找 对 数 似 然 度 的 最 大 值 m ， 再 用 m 转换 回 所 有 的 似 然 值 〈 非 对 








数 ) 。 得 到 的 分 布 具有 1 的 最 大 似 然 度 。 这 个 过 程 以 最 小 的 精度 损失 转 
置 了 对 数 变换 。 


10.6 ”对 数 似 然 


现在 我 们 需要 的 是 Loglikelihood 。 


# class Height 


def LogLikelihood(self, data, hypo): 
x = data 
mu, sigma = hypo 
loglike = scipy.stats.norm.logpdf(x, mu, sigma) 
return loglike 





norm.logpdf 计算 高 斯 PDF 的 对 数 似 然 值 。 
下 面 是 整个 更 新 过 程 : 


suite.Log () 
suite.LogUpdateSet (xs) 
suite.Exp () 


suite.Normalize () 





回顾 一 下 ，Log 将 Suite 对 象 进行 对 数 转 换 。LogUpdateSet 调 
用 LogUpdate ， 再 调用 Loglikelihood 。LogUpdate 使 用 Pmf.Incr 
， 因 为 将 对 数 似 然 值 相 加 等 同 于 似 然 度 相 乘 。 


更 新 后 ， 对 数 似 然 都 是 较 大 的 负数 ， 所 以 在 进行 变换 转 置 前 ，Exp 
对 它们 进行 转换 ， 这 吏 是 我 们 避免 下 洪 的 过 程 。 

一 旦 该 suit 对 象 家 转化 回来 ， 概 率 就 变 回 “线性 ?的 ， 这 意味 着 
其 “ 非 对 数 ”" 了 ， 所 以 我 们 可 以 再 次 使 用 Normalize 。 


使 用 这 种 算法 ， 可 以 在 处 理 整 个 数据 集 时 避免 产生 下 洲 ， 但 它 仍 然 
很 慢 。 我 的 电脑 处 理 起 来 可 能 需要 一 小 时 。 我 们 还 可 以 做 得 更 好 。 


10.7 一 个 小 的 优化 

本 节 通 过 数学 和 计算 的 优化 百倍 地 加 快 了 速度 。 但 下 一 节 介 绍 了 一 
种 还 要 更 快 的 算法 。 所 以 ， 如 果 你 想 直 接 得 到 好 方法 ， 那 么 可 以 跳 过 这 
本 


Suite.LogUpdateSet 在 每 个 数据 点 上 调用 LogUpdate 一 次 。 我 
们 可 以 通过 每 一 次 计算 整个 数据 集 的 对 数 似 然 值 来 加 快 步伐 。 


我 们 将 开始 于 高 斯 的 PDF: 








并 计算 对 数 log 〈 去 掉 了 常数 项 ) : 


1 外 
一 loga 一 一 
2 GT 


对 于 给 定 的 值 序列 4% ， 总 对 数 似 然 是 


] = 
一 loge 一 一 
2 GT 


i 








去 掉 不 包括 i 的 项 ， 得 到 
—n logo 一 3), (ri—p) 


这 一 过 程 转换 为 Python 代 码 如 下 : 





# class Height 


def LogUpdateSetFast(self, data): 
xs = tuple(data) 
n = len(xs) 


for hypo in self.Values(): 
mu, sigma = hypo 
total = Summation(xs, mu) 
loglike = -n * math.log(sigma) - total / 2 / sigma**2 
self.Incr(hypo, loglike) 








本 身 这 只 是 一 个 小 的 优化 ， 但 它 带 来 了 一 个 更 大 的 优化 可 能 性 。 请 
注意 ， 求 和 只 取决 于 mu ， 而 不 是 sigma ， 所 以 对 mu 的 每 一 个 值 我 们 只 


需要 计算 它 一 次 。 


| 为 了 避免 重新 计算 ， 我 分 解 出 一 个 计算 总 和 的 函数 ， 并 memoize 
它 ， 使 其 在 字典 中 存储 之 前 的 计算 结果 《〈 见 
http://en.wikipedia.org/wiki/ Memoization ) : 


def Summation(xs, mu, cache={}): 
try: 
return cache[xs, mu] 
except KeyError: 
ds = [(x-mu)**2 for x in xs] 


total = sum(ds) 
cache[xs, mu] = total 
return total 





cache 存储 先前 计算 的 总 和 。 如 果 可 能 try 语句 从 cache 中 返回 一 个 
结果 ， 和 否则 计算 总 和 ， 再 缓存 并 且 返 回 计算 结 


唯一 美中不足 的 是 ， 我 们 不 能 用 列表 作为 缓存 中 的 一 个 key， 因 为 
它 不 是 一 个 哈 希 类 型 。 这 就 是 为 什么 LogUpdateSetFast 将 数据 集 转换 
为 一 个 元 组 。 


这 种 优化 以 大 约 100 的 因数 加 快 了 计算 ， 在 我 不 算 快 的 计算 机 上 处 
理 整 个 数据 集 (154 407 名 男性 和 254 722 名 女性 ) 用 了 不 到 一 分 钟 。 


10.8 ABC “近似 贝 叶 斯 计算 ) 


但 是 ， 也 许 你 耗 不 起 这 样 的 时 间 。 这 时 候 ， 近 似 贝 叶 斯 计算 
(ABC) 就 是 合适 的 方法 了 了 。ABC 背 后 的 动因 是 ， 任 何 特定 数据 集 的 似 
然 度 有 以 下 特点 。 


1. 它 非常 小 ， 特 别 是 对 于 大 型 数据 集 来 说 ， 这 惑 是 为 什么 我 们 必 
须 使 用 对 数 转 换 形 式 的 原因 。 


2. 计算 开销 大 ， 所 以 我 们 不 得 不 做 这 么 多 的 优化 。 
3. 它 并 非 我 们 实际 所 要 求 的 。 


我 们 并 不 真正 关心 看 到 茶 一 己 知 数据 集 的 具体 似 然 度 。 尤 其 对 于 连 
续 变 量 ， 我 们 关心 的 是 观测 到 一 个 类 似 于 已 知 数据 的 数据 集 的 似 然 度 。 
例如 ， 在 欧元 问题 上 ， 我 们 不 关心 硬币 翻转 的 顺序 ， 只 关心 正面 和 反面 
的 总 数 。 而 在 火车 头 问题 上 ， 我 们 不 关心 看 到 哪 一 个 具体 的 列车 ， 而 是 
列车 的 数量 和 列车 序号 的 最 大 值 。 


同样 ，BRFSS 的 样本 中 ， 我 们 并 不 真 想 知道 看 到 某 一 个 数据 值 集合 
的 概率 (特别 是 因为 有 成 干 上 万 的 人 〉 ， 而 是 更 类 似 于 提出 这 样 的 问 
题 “如 末 从 全 体 人 口中 取出 一 个 参数 为 n 和 o 的 10 万 人 口 样本 ， 那 么 取 到 
一 个 符合 已 知 观测 均值 和 方差 的 样本 的 机 会 是 多 少 ?” 

对 于 一 个 高 斯 分 布 的 样本 ， 因 为 可 以 分 析 性 地 找到 样本 分 布 的 统计 
量 ， 我 们 可 以 有 效 地 回答 这 个 问题 。 在 计算 先 验 分 布 的 范围 时 ， 我 们 实 
际 已 经 做 到 了 这 一 点 。 


如 果 从 参数 为 ny 和 o 的 高 斯 分 布 取 n 个 值 ， 并 且 计 算 样 本 均值 m ，m 
的 分 布 是 参数 为 yn 和 oN7 的 高 斯 分 布 。 


同样 地 ， 样 本 的 标准 差分 布 s ， 也 是 为 参数 v 和 "V ?ln 一 1 的 高 斯 分 
布 。 











给 定 y 和 o 假设 值 ， 我 们 可 以 使 用 这 些 样本 的 分 布 来 计算 样本 统计 
量 m 和 s 的 似 然 度 。 下 面 是 LogUpdateset 实现 这 个 功能 的 新 版 本 : 





def LogUpdateSetABC(self, data): 
xs = data 
n = len(xs) 


# compute sample statistics 
m = numpy .mean(xs) 
s = numpy.std(xs) 


for hypo in sorted(self.Values()): 
mu, sigma = hypo 


# compute log likelihood of m, given hypo 
stderr m = sigma / math.sqrt(n) 
loglike = EvalGaussianLogPdf(m, mu, stderr_m) 


#compute log likelihood of s, given hypo 
stderr s = sigma / math.sqrt(2 * (n-1)) 


loglike += EvalGaussianLogPpdf(s, sigma, stderr s) 


self.Incr(hypo, loglike) 





在 我 的 电脑 这 个 函数 处 理 整 个 数据 集 用 时 大 约 1 秒 ， 得 到 的 结果 有 5 
位 数 的 精度 与 实际 结果 一 样 。 





10.9 ”估计 的 可 靠 性 


我 们 已 经 兰 不 多 可 以 看 到 结果 了 ， 但 还 有 一 个 问题 要 处 理 。 数 据 集 
中 有 一 些 几 乎 肯定 是 错误 的 异常 数据 值 。 例 如 ， 有 3 个 男人 喘 高 为 61 厘 
米 ， 也 就 是 说 他 们 是 世界 上 最 矮 的 成 年 人 了 。 为 外 ， 有 四 个 里 蜗 229 厚 
米 的 女性 ， 这 个 数据 仅 比 世界 上 最 高 的 女人 矮 一 点 。 


这 些 值 也 不 是 完全 没 可 能 ， 但 还 是 有 点 不 确定 性 的 ， 这 些 因 系 让 处 
理 这 些 值 有 些 难度 。 而 且 我 们 必须 处 置 得 当 ， 因 为 这 些 极端 值 对 估计 变 
异性 问题 有 不 成 比例 的 影响 。 


由 于 ABC 基于 汇总 统计 ， 而 不 是 整个 数据 集 ， 我 们 可 以 选择 在 有 姑 
常 值 的 情况 下 也 稳定 的 汇总 统计 量 使 这 一 过 程 更 可 徘 。 例 如 ， 我 们 可 以 
不 使 用 样品 平均 值 和 标准 偏差 ， 而 用 中 位 数 和 四 分 位 数 间距 (IQR) ， 
它 在 第 25 和 第 75 个 百 分 位 数 之 间 。 


更 一 般 地 ， 我 们 可 以 计算 出 一 个 分 布 所 有 区 间 的 百 分 位 间距 
(IPR) : 











def MedianIPR(xs, p): 
cdf = thinkbayes.MakeCdfFromList(xs) 
median = cdf.Percentile(508) 


alpha = (1-p) / 2 


ipr = cdf.Value(1-alpha) - cdf.Value(alpha) 
return median, ipr 





xs 是 一 个 值 序 列 ，p 是 所 布 望 的 范围 例如 ，p = 86.5 产生 四 分 
位 数 间距 。 


MedianIPR 的 工作 原理 是 计算 xs 的 CDF， 然 后 提取 中 位 数 和 两 个 
百 分 位 之 间 的 差 。 

通过 高 斯 CDF 计 算 给 定 标 准 差 的 分 布 的 百分数 ， 我 们 可 以 从 ipr 转 
换 到 一 个 sigma 的 估计 值 。 例 如 ， 一 个 众所周知 的 经 验 规 则 是 ， 高 斯 分 





布 的 68% 沙 入 均值 的 一 个 标准 差 内 ， 在 左右 端 各 留 下 了 其 余 的 16%。 如 
果 我 们 在 第 16 和 第 84 百 分 位 数 之 间 的 范围 内 进行 计算 ， 我 们 预期 的 结果 
是 2*sigma ， 所 以 我 们 可 以 通过 计算 68% 的 IPR 再 除 以 2 来 估计 sigma 。 


更 一 般 地 ， 我 们 可 以 选择 sigma 的 个 数 。Medias 提供 了 这 一 计算 
的 更 通用 的 版 本 : 


def MedianS(xs, num sigmas): 
half_p = thinkbayes.StandardGaussianCdf(num sigmas) - 6.5 


median, ipr = MedianIPR(xs, half p * 2) 
s= ipr/ 2/ num sigmas 


return median, s 





同样 ，xs 是 值 序列 ，num_sigmas 是 结果 所 决定 的 标准 差 数 量 。 其 
结果 是 median， 的 估计 值 ， 还 有 s ，0o 的 估计 值 。 


最 后 ， 在 LogUpdateSetABC 我 们 可 以 用 median 和 s 代 蔡 样品 平均 
值 和 标准 差 ， 效 果 很 好 。 


这 似乎 有 点 儿 奇 怪 ， 我 们 正在 使 用 观 友 的 百 分 位 数 佑 计 凡 和 a ， 但 
它 是 贝 叶 斯 方法 灵活 性 的 一 个 示例 。 实 际 上 ， 我 们 一 直 都 在 问 “ 给 定 一 
个 p 和 o 的 假设 值 ， 还 有 一 个 有 可 能 引入 错误 的 采样 过 程 ， 那 么 生成 一 
组 给 定 统计 样本 的 似 然 度 是 多 少 ? ” 


我 们 可 以 不 受 限制 地 选择 任何 顺眼 的 样本 统计 量 ， 此 时 : py 和 o 确 
定 了 分 布 的 位 置 和 区 间 ， 所 以 我 们 需要 选择 那些 表现 了 这 些 特征 的 统计 
量 。 例 如 ， 如 果 我 们 选择 了 第 49 和 第 51 百 分 位 数 ， 有 关 分 布 区 间 范 围 的 
信息 就 很 少 (译注 ， 太 罕 〉 ， 所 以 使 得 对 c 的 估计 对 数据 的 约束 小 。 就 
生成 的 观测 值 而 言 ， 所 有 sigma 的 可 能 值 都 将 具备 几乎 相同 似 然 度 ， 所 
以 西格玛 的 后 验 分 布 看 起 来 就 和 前 验 分 布 没 有 区 别 。 














10.10 ” 谁 的 变异 性 更 大 ? 
我 们 终于 可 以 回答 开头 的 问题 了 : 男性 的 变异 系数 比 女性 更 大 吗 ? 
通过 使 用 基于 中 位 数 和 IPR 的 ABC 方法 ， 假 设 num_sigmas = 1， 


我 计算 了 mu 和 sigma 联合 分 布 的 后 验 。 图 10-1 和 图 10-2 显 示 了 结果 的 等 
高 线 图 ，mu 在 x 轴 ，sigma 在 y 轴 ， 概 率 以 z 轴 表 示 。 


后 验 联 合 分 布 
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图 10-1 美国 男性 身高 平均 值 和 标准 差 后 验 联 合 分 布 的 等 高 线 图 
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图 10-2 美国 女性 身高 平均 值 和 标准 差 后 验 联 合 分 布 的 等 高 线 图 


对 于 每 一 个 联合 分 布 ， 我 计算 了 CV 的 后 验 分 布 。 图 10-3 显 示 了 男 
性 和 女性 的 这 些 分 布 结果 。 男 性 平均 值 为 0.0410; 女性 的 平均 值 为 
0.0429。 由 于 两 者 间 没 有 重合 ， 我 们 可 以 比较 确定 地 得 出 女性 在 里 蜗 方 
面 比 男性 变异 性 更 大 的 结论 。 
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图 10-3 ”男性 和 女性 变异 系数 CV 的 后 验 分 布 CDF 曲 线 ， 基 于 可 徘 型 估计 


那么 ， 这 就 是 变异 性 假设 的 最 终 答案 了 ? 可 悲 的 是 ， 没 有 。 事 实证 
明 ， 这 样 的 结果 依赖 于 路 百分数 范围 的 选择 。 指 定 num_sigmas = 1， 
我 们 可 以 得 出 结论 说 女性 流动 范围 更 大 ， 但 行 是 指定 num_sigmas = 2 
， 在 同等 置信 度 下 ， 结 论 是 男性 范围 更 大 。 


这 一 差别 的 原因 在 于 ， 矮 小 身材 的 男人 更 多 ， 偏 离 平 均值 也 较 大 。 
因此 ， 我 们 对 变异 性 假设 的 评价 取决 于 对 “变异 性 ”的 解释 。 指 定 
num_sigmas = 1 时， 我 们 关注 于 接近 平均 值 的 人 。 当 加 
大 num_sigmas ， 就 给 予 了 极端 值 更 多 的 权重 。 


选择 完 竟 要 突出 问题 的 哪 一 面 ， 我 们 就 需要 对 这 一 假设 更 精确 的 解 
释 。 正 因为 如 此 ， 变 腊 性 假设 可 能 模糊 到 难以 评价 。 


然而 ， 这 有 助 于 说 明 我 的 一 些 新 想法 ， 而 且 我 想 你 会 认可 ， 这 是 一 




















个 有 趣 的 例子 。 


10.11 讨论 


还 有 两 种 对 ABC 的 看 法 。 一 种 解释 是 ， 如 名 称 所 指 的 ， 和 和 采用 实际 
值 的 计算 相 比 ， 近 似 方法 计算 起 来 更 快 。 


但 请 记 住 ， 贝 叶 斯 分 析 总 是 基于 模型 决 集 的 ， 这 意味 痢 不 存在 “ 精 
确 ” 的 解决 方案 。 任 何 车 人 关注 的 物理 系统 都 可 能 存在 许多 模型 ， 每 个 
模型 产生 不 同 的 结果 。 要 对 结果 进行 解释 ， 就 必须 评估 模型 。 


因此 ，ABC 的 妨 一 种 解释 是 ， 它 代表 似 然 度 的 男 外 一 类 模型 。 当 计 
算 p(D |H)， 我 们 提出 的 问题 是 “在 一 个 给 定 假设 下 ， 数 据 的 似 然 度 是 多 


人 少 ? 39 


对 于 大 型 数据 集 ， 数 据 的 似 然 肛 非常 小 ， 这 意味 上 面 的 问题 可 能 囊 
不 合适 。 我 们 真正 想 知道 的 结果 是 新 的 数据 类 似 于 已 知 数据 的 可 能 性 ， 
而 这 里 ，“ 类 似 * 的 定义 又 是 一 个 建 模 决 俩 。 


ABC 背后 的 基本 思想 是 ， 如 果 两 个 数据 集 产 生 了 相同 的 描述 性 统计 
量 ， 那 它们 就 是 类 似 的 。 但 在 茶 些 情况 下 ， 如 在 本 章 的 例子 中 ， 到 撒 选 
择 哪 种 汇总 统计 量 并 不 明显 。 


你 可 以 从 http:Mihinkbayes.comyvariability.py 下 载 本 章 中 的 代码 。 欲 
了 解 更 多 信息 ， 请 参见 第 前 言 的 “代码 指南 ”。 

















10.12 练习 
练习 10-1。 


“效应 量 (effect size) ”是 一 个 则 在 衡量 两 组 之 间 的 差异 的 统计 量 
(MM http://en.wikipedia.org/wiki/Effect_size ) 。 


例如 ， 我 们 可 以 使 用 从 BRFSS 得 到 的 数据 去 估算 男性 女性 之 间 的 高 
ee 由 yp 和 o 的 后 验 分 布 的 采样 值 ， 束 能 生成 这 一 差异 的 后 验 分 








但 使 用 效应 量 的 无 量 纲 度量 方法 可 能 更 好 ， 而 不 以 厘米 为 单位 进行 
差异 衡量 。 一 种 选择 是 通过 将 其 《数据 ) 除 以 标准 差 〈 类 似 于 我 们 用 变 
寞 系数 一 样 ) 。 

如 果 组 1 的 参数 为 (ni ，o 1 ) ， 组 2 的 参数 为 (un，，a，) ， 

无 量 纲 的 效应 量 就 是 

HA1 一 H2 


(ol + 02)/2 


编写 一 个 函数 ， 它 接收 两 组 数据 的 mu 和 sigma 的 联合 分 布 ， 并 返 
回 效应 量 的 后 验 分 布 。 


e 提示 : 如 宁 枚 举 两 个 分 布 所 有 数值 对 的 时 间 太 长 ， 应 考虑 随机 采 


第 11 章 ”假设 检验 


11.1 回 到 欧元 问题 
第 27 页 的 “欧元 问题 * 中 ， 我 介绍 了 来 自 麦 饥 《 人 信息、 理论 、 推 理 
和 学 习 算 法 》 中 的 一 个 问题 : 
2000 年 1 月 4 日 星期 五 ，《 卫 报 》 上 刊载 了 一 个 统计 相关 的 声 








当 以 边缘 转动 比利时 一 欧元 硬币 250 次 时 ， 得 到 的 结果 是 正面 
140 次 反面 110 次 。“ 这 看 起 来 很 可 疑 ?， 伦 敦 经 济 学 院 的 统计 讲师 巴 
里 : 布 莱 特 说 , “如 果 便 币 是 均匀 的 ， 得 到 这 个 结果 的 可 能 性 低 于 
7%”。 

那么 ， 这 一 结果 是 否 为 “人 硬币 偏心 而 非 均 匀 ” 提 供 了 证 据 呢 ? 

我 们 估计 了 人 硬币 正面 朝 上 的 概率 ,但 我 们 并 没有 真正 回答 麦 纠 的 问 
题 ， 数 据 是 否 佐 证 了 便 币 是 偏心 的 ? 


在 第 4 章 中 我 提出 ， 如 果 数 据 在 某 一 假设 下 比 万 外 假设 下 的 可 能 性 
要 高 ， 那 么 数据 就 是 文 持 该 假设 的 ， 这 等 同 于 贝 叶 斯 因子 大 于 1 的 情 
况 。 








在 欧元 问题 的 例子 中 ， 我 们 考虑 两 个 假设 : 使 用 F 表示 硬币 是 侦 心 
的 假设 ，B 表示 硬币 古 均匀 的 假设 。 

如 果 人 硬币 是 均匀 的 ， 容 易 计 算数 据 的 似 然 度 ，p(CD |F )。 实 际 上 ， 
我 们 已 经 完成 了 一 个 函数 实现 这 个 计算 。 








def Likelihood(self, data, hypo): 
x = hypo / 166.6 
head, tails = data 
like = x**heads * (1-x)**tails 
return like 


| | 
我 们 可 以 创建 一 个 调用 Likelihood 的 Euro suite 对 象 : 


suite = Euro() 
likelihood = suite.Likelihood(data, 506) 





p(D |F ) 是 5.5x10 “6 ， 这 一 结果 除了 说 明 任 何 特定 数据 集 的 概率 相 
当 小 ， 没 有 什么 用 处 。 需 要 求 得 两 个 似 然 度 再 求 它们 的 比率 ， 所 以 我 们 
还 要 计算 p(D |B )。 


要 如 何 计算 B 的 似 然 度 并 不 明确 ， 因 为 “偏心 ”的 含义 并 不 那么 明 
傅 。 


一 种 可 能 性 是 在 定义 假设 前 预先 检查 数据 。 那 么 在 这 个 例子 
里 ，“ 偏 心 ”就 是 指正 面向 上 的 概率 为 140/250。 


actual percent = 160.6 *1406/250 
likelihood = suite.Likelihood(data, actual percent) 





假设 B 的 这 个 版 本 我 称 之 为 B_cheat ; b_cheat 的 可 能 性 是 
34x10- ， 似 然 比 是 6.1。 因 此 ， 我 们 可 以 说 ， 数 据 是 支持 这 个 版 本 的 B 


假设 的 。 


但 使 用 该 数据 来 制定 的 假设 显然 是 有 作伪 嫌疑 的 。 根 据 这 一 定义 ， 
任何 数据 集 部 将 文 持 假 设 B， 除 非 所 观察 到 的 正面 向 上 百分比 恰好 是 
50%。 


11.2 来 一 个 公平 的 对 比 


为 了 实现 一 个 公正 的 对 比 ， 我 们 必须 在 无 视 数据 的 情况 下 先 定义 B 
。 那 么 我 们 来 尝试 一 个 不 同 的 定义 。 如 果 检 查 比 利 时 欧元 硬币 ， 你 可 能 
会 注意 到 “正面 * 比 “反面 ”更 加 突出 。 可 以 猜想 ， 形 状 对 x 有 一 定 的 影 
啊 ， 但 不 能 确定 是 否 就 是 这 一 因素 让 正面 多 或 者 少 一 点 。 所 以 ， 你 可 能 
会 想 : “我 认为 硬币 偏心 ， 所 以 x 是 0.6 或 0.4， 但 不 知道 究竟 是 多 还 是 


巡 

















我 们 可 以 好 好 考虑 下 这 个 由 两 个 子 假设 构成 的 被 称 为 B_two 的 假设 
版 本 。 我 们 可 以 计算 出 每 个 子 假设 的 似 然 度 ， 然 后 计算 平均 似 然 度 。 


like46 = suite.Likelihood (data, 40) 
like68 = suite.Likelihood (data, 608) 
likelihood= 6.5 * 1]ike46 + 0.5 * like60 





对 于 b_two 似 然 度 比 (或 贝 叶 斯 因子 为 1.3， 这 意味 看 数据 提供 
微弱 的 证 据 支 持 b_two 。 


更 一 般 地 ， 设 想 你 怀疑 硬币 束 是 偏心 不 均匀 的 ， 可 是 对 于 x 的 值 没 
有 线索 。 在 这 种 情况 下 ， 你 可 以 建立 一 个 称 为 bp_uniform 的 Suite 对 
象 ， 代 表 从 0 到 100 的 子 假设 。 





b_uniform =Euro(xrange (© ， 1061)) 
b_uniform.Remove (508) 
b_uniform.Normalize () 





我 以 值 0 到 100 初 始 化 b _ uniform 。 删 除了 x 等 于 50% 的 子 假设 ， 
为 当 x 为 50% 上 时， 硬币 就 是 均 义 的 ， 不 管 你 删 不 删除 除 这 一 值 ， 对 结 


几乎 都 没有 影 啊 。 
要 计算 b_uniform 的 可 能 性 ， 我 们 计算 每 个 子 假设 的 似 然 度 ， 并 累 





加 其 加 权 平 均值 。 


def SuiteLikelihood(Suite, data): 
total = 0 
for hypo, prob in Suite.Items(): 
like = suite.Likelihood(data, hypo) 


total += prob * like 
return total 





b_uniform 的 似 然 比 是 0.47， 这 意味 着 相 比 于 下 ， 数 据 对 
b_uniform 只 算是 微弱 的 证 据 。 


如 果 你 考虑 下 SuiteLikelihood 的 计算 ， 你 可 能 会 注意 到 这 类 似 
于 一 个 更 新 过 程 。 来 回忆 一 下 ， 下 面 是 Update 的 功能 : 





def Update(self, data): 
for hypo in self.Values(): 
like = self.Likelihood(data, hypo) 
self.Mult(hypo, like) 
return self.Normalize() 





Normalize 如 下 : 


def Normalize(self): 
total = self.Total() 


factor = 1.6 / total 
for x in self.d: 


self.d[x] *= factor 


return total 





Normalize 的 返回 值 是 Suite 对 象 中 以 先 验 的 概率 加 权 的 总 概率 
值 ， 即 子 假设 的 平均 似 然 度 。Update 继续 处 理 这 个 值 ， 所 以 不 用 对 





SuiteLikelihood 进行 处 理 ， 我 们 就 可 以 像 下 面 这 样 计算 b_uniform 
的 似 然 度 : 


likelihood= b_uniform.Update(data) 





11.3 三 角 前 验 


在 第 4 章 中 ， 我 们 还 讨论 了 形 如 三 角 的 前 验 分 布 ， 其 在 50% 附 近 的 
值 有 更 高 的 概率 。 如 果 将 子 假 设 的 移 验 分 布设 定 为 三 角 前 验 ， 可 以 这 样 
计算 它 的 似 然 度 : 








b _ triangle = TrianglePrior() 


likelihood= b _ triangle.Update(data) 





和 假设 F 相 比 ，b_triangle 的 似 然 比 为 0.84。 所 以 我 们 可 以 说 该 
数据 对 于 假设 B 只 算是 微弱 的 证 据 。 


下 表 显 示 了 已 考虑 的 可 能 性 的 移 验 概 率 ， 以 及 相对 于 F 的 似 然 比 
(或 贝 叶 斯 因子 〉。 














根据 我 们 选择 的 定义 ， 数 据 会 对 “硬币 是 偏心 的 ”提供 支持 或 者 反对 
的 证 据 ， 但 在 两 种 情况 下 ， 证 据 都 是 相对 微弱 的 。 


综 上 所 述 ， 我 们 可 以 用 贝 叶 斯 假设 检验 来 比较 F 和 B 的 似 然 度 ， 但 
必须 做 一 些 工作 来 精确 指出 假设 B 的 含义 。 这 一 点 依赖 于 人 硬币 和 硬币 旋 
转行 为 的 背景 信息 ， 所 以 对 所 谓 正确 的 定义 ， 人 们 都 有 理由 提出 异议 。 


我 就 这 个 例子 的 介绍 延续 了 大 卫 : 麦 凯 的 讨论 ， 得 到 了 一 样 的 结 
论 。 你 可 以 从 http:Nthinkbayes.com/euro3.py 下 载 本 章 代 码 。 欲 了 解 更 多 
信息 ， 请 参见 前 言 的 “代码 指南 ”。 


11.4 讨论 


对 于 B_uniform ， 贝 叶 斯 因子 为 0.47， 和 下 对 比 ， 这 意味 着 数据 提 
供 的 证 据 反 对 这 一 假设 。 在 前 面 的 部 分 中 ， 我 将 这 一 证 据 描述 为 “ 弱 ”， 
但 没有 说 明 原 因 。 

部 分 原因 有 些 年 头 。 哈 罗 德 . 杰 弗 里 斯 ， 贝 叶 斯 统计 的 早期 文 持 
者 ， 提 出 了 一 个 解读 贝 叶 斯 因子 的 尺度 : 








在 本 例 中 ， 文 持 B_uniform 的 贝 叶 斯 因子 是 0.47， 所 以 支持 F 的 贝 
叶 斯 因子 是 2.1， 也 就 是 杰 弗 里 斯 认为 的 “不 值 一 提 ”， 其 他 的 学 者 也 提出 
W000 0 660.0 





如 果 你 之 前 的 胜率 是 1:1， 接 着 你 看 到 了 贝 叶 斯 因子 为 2 的 证 据 ， 你 
胜率 的 后 验 束 是 2:1。 在 概率 方面 ， 数 据 将 你 的 信念 度 〈degree of 
belief〉 从 50% 改 变 到 66%。 而 对 于 大 多 数 现实 世界 的 问题 来 说 ， 这 一 类 
影响 与 建 模 误差 和 其 他 不 确定 性 来 源 导 致 的 影响 相 比 要 小 些 。 


一 种 情况 下 ， 如 果 你 得 到 一 个 贝 叶 斯 因子 是 100 的 证 据 ， 你 的 后 


验 胜 率 将 是 100:1 或 99% 以 上 。 无 论 你 是 个 同意 ， 这 样 的 证 据 是 “决定 性 
的 ”， 是 相当 强烈 的 证 据 。 


11.5 练习 

练习 11-1。 

有 些 人 相信 第 六 感 (ESP) 的 存在 。 例如， 有些 人 猜 扑 克 牌 的 能 
比 随意 进行 猜测 要 高 。 

在 这 类 ESP 上 ， 你 的 前 验 信 度 是 什么 ?你 认为 它 可 能 存在 还 是 不 存 
在 ? 还 是 你 强烈 质疑 它 呢 ? 写 下 你 的 先 验 胜率 。 


现在 ， 计 算 能 说 服 你 相信 ESP 至 少 有 50% 可 能 存在 的 证 据 强 度 。 多 
大 的 贝 叶 斯 因子 能 让 你 90% 确 定 ESP 的 存在 ? 


练习 11-2。 


设想 前 一 个 问题 的 答案 是 1000。 也 就 是 说 ， 一 个 贝 叶 斯 因子 是 1000 
的 支持 ESP 的 证 据 才 可 以 改变 你 的 想法 。 现 在 假设 你 在 一 个 权威 评审 科 
学 期 刊 上 读 到 了 一 篇 论文 ， 当 中 提出 了 一 个 贝 叶 斯 因子 是 1000 的 支持 
ESP 的 证 据 ， 这 会 改变 你 的 想法 吗 ? 


如 有 果 没 有 ， 你 怎么 解决 这 个 明显 的 矛盾 ? 你 会 发 现 疯 读 大 卫 : 休 谱 
的 文章 《奇迹 》 会 帮助 你 思考 这 个 问题 。 文 章 见 
http://en.wikipedia.org/wiki/Of_Miracles 。 




















第 12 革 ”证据 
12.1 解读 SAT 成 绩 


假设 你 是 马 李 庄 野 州 一 个 工程 学 院 的 招生 院 长 ， 正 在 考虑 两 个 候选 
人 爱丽 丝 和 鲍 艺 ， 他 们 在 许多 方面 的 资历 都 着 不 多 ， 只 是 爱丽 丝 在 SAT 
0 
To 

















如 果 爱 丽 丝 得 到 了 780 分 ， 鳃 对 得 到 了 740 分 (满分 800 分 ) ， 你 也 
许 想 知道 这 一 差异 是 否 就 是 爱丽 丝 比例 勃 准备 得 更 好 的 证 据 ， 还 有 证 据 
的 强度 是 多 少 。 


现实 中 ， 这 两 个 分 数 都 非常 好 ， 而 且 两 位 候选 人 可 能 都 为 大 学 数学 
学 习 做 好 了 准备 。 所 以 真正 的 院 长 可 能 会 建议 我 们 选择 那些 最 能 体现 我 
们 希望 学 生 所 具备 的 技能 和 态度 的 候选 人 。 不 过 既然 这 是 一 个 贝 叶 斯 假 
设 检验 的 例子 ， 我 们 还 是 坚持 住 不 要 扩大 问题 范畴 ， 即 :“ 爱 丽 丝 比 鲍 
动 准备 得 更 好 的 证 据 有 多 强 ?” 


要 回答 这 个 问题 ， 需 要 进行 一 些 建 模 决策 。 我 将 以 一 个 其 实 不 真实 
的 简化 版 开始 ， 然 后 再 回来 改进 模型 。 暂 时 的 ， 先 假定 所 有 的 SAT 试 题 
有 同等 难度 。 事 实 上 ，SAT 设 计 师 选择 的 试题 是 有 一 定 难 度 区 间 的 ， 因 
为 这 提高 了 度量 答题 者 统计 差异 的 能 力 。 

但 是 ， 如 果 我 们 选择 一 个 全 部 试题 有 同等 难度 的 模型 ， 就 可 以 为 每 
个 参加 测试 者 定义 一 个 特征 p_correct ， 即 答对 任 一 问题 的 概率 。 这 种 
简化 可 以 很 容易 地 计算 出 给 定 得 分 的 似 然 度 。 








12.2 ”比例 得 分 SAT 


为 了 理解 SAT 成 绩 ， 我 们 要 了 解 得 分 和 比例 分 数 的 计算 过 程 。 每 个 
测试 者 基于 对 题 和 错 题 的 数量 会 得 到 一 个 原始 分 数 。 原 始 得 分 被 转换 为 
200 一 800 间 的 比例 分 数 。 


2009 年 ，SAT 数 学 部 分 有 54 题 ， 原 始 分 数 为 每 个 测试 者 答对 题 的 个 
数 减 去 答 错 题 的 个 数 乘 以 1/4 分 〈 即 ， 答 对 1 题 得 1 分 ， 答 错 1 题 减 1/4 
LN 
分 ) 。 


负责 管理 SAT 的 高 校 理事 会 ， 发 布 了 一 个 从 原始 分 数 到 比例 分 数 的 
映射 图 。 我 下 载 了 该 数据 并 将 其 封装 在 一 个 插值 对 象 中 ， 它 能 进行 正 问 
(从 原始 分 数 到 比例 分 数 》 和 反 向 (从 比例 分 数 到 原始 分 数 〉 查找。 


你 可 以 从 http:/Nthinkbayes.com/sat.py 下 载 这 个 例子 的 代码 ， 更 多 信 
恳请 参见 前 言 的 “代码 指南 ”。 


12.3” 先 验 


美国 大 学 理事 会 还 发 布 了 所 有 测试 者 比例 分 数 的 分 布 。 如 果 我 们 把 
每 一 个 比例 分 数 转换 为 原始 分 数 ， 并 除 以 题目 数量 ， 那 么 结 末 就 
是 p_correct 的 估计 值 。 所 以 我 们 可 以 使 用 原始 分 数 的 分 布 
为 p_correct 的 先 验 分 布 建 模 。 


下 面 是 读 取 并 处 理 数 据 的 代码 : 


class Exam(object): 


def _init (self): 
self.scale = ReadScale() 
scores = ReadRanks() 


score pmf = thinkbayes.MakePmfFromDict(dict(scores)) 
self.raw = self.ReverseScale(score pmf) 
self.prior = DivideValues(raw, 54) 





Exam 封装 了 我 们 已 知 的 有 关 考 试 的 信息 。ReadSscale 和 
ReadRanks 读 取 文件 并 返 回 包含 了 数据 的 一 个 对 象 : self.scale 是 转 
、 分 数 到 比例 分 数 〈 或 者 相反 ) 的 Interpolator ; scores 是 

(得 分 ， 频 率 ) 对 的 列表 。 


score_pmf 是 缩放 分 数 的 Pmf 对 象 。self.raw 是 原始 分 数 的 Pmf 对 
象 。self.prior 是 p_correct 的 Pmf 对 象 。 


图 12- 1 显示 了 p_ correct 的 先 验 分 布 。 这 种 分 布 近似 于 高 斯 分 布 ， 
但 是 它 在 两 端 很 平 。 在 设计 上 ，SAT 强 调 了 平均 值 两 个 标准 差 内 的 测试 
者 得 分 ， 而 忽略 超出 该 范围 的 部 分 。 
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图 12-1 SAT 考试 考生 p_correct 的 先 验 分 布 


对 于 每 一 个 参加 测试 者 ， 我 定义 了 一 个 名 为 Sat 的 Suite 对 象 ， 代 
表 p_correct 的 分 布 。 定 义 如 下 : 





class Sat(thinkbayes.Suite): 


def _init (self, exam, score): 
thinkbayes.Suite. init (self) 
self.exam = exam 
self.score = score 


# start with the prior distribution 

for p_correct, prob in exam.prior.Items() : 
self.Set(p_correct, prob) 

# update based on an exam score 

self.Update(score) 


| 


__init __ 接收 一 个 Exam 对 象 和 比例 分 数 。 它 创建 一 个 先 验 的 副 
本 ， 再 根据 考试 成 绩 更 新 这 个 副本 。 


像 往常 一 样 ， 我 们 从 Suite 继承 Update ， 再 改写 Likelihood : 


def Likelihood(self, data, hypo): 
p_correct = hypo 
score = data 


k = self.exam.Reverse(score) 


n = self.exam.max_score 
like = thinkbayes.EvalBinomialpmf(k, n, p_correct) 
return like 





hypo 是 p_correct 的 一 个 假设 值 ，data 为 比例 分 数 。 


为 了 简单 起 见 ， 原 始 分 数 就 是 正确 答案 的 数量 ， 忽 略 错误 答案 的 六 
分 (每 题 1/4 分 )。 这 样 的 话 ， 似 然 度 由 计算 从 n 个 试题 中 得 到 k 个 正确 回 
答 的 概率 的 二 项 分 布 给 出 。 


12.4 后 验 
图 12-2 显 示 了 在 爱丽 丝 和 鲍 懿 分 数 基础 上 得 到 的 p_correct 的 后 验 
分 布 。 我 们 可 以 看 到 ， 它 们 重 闭 在 一 起 ， 有 可 能 鲍 勃 的 p_correct 更 
高 ， 但 似乎 不 可 能 。 
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图 12-2 ”爱丽 丝 和 鲍 勃 的 p_correct 的 后 验 分 布 


我 们 回 到 原来 的 问题 , “有 多 强 的 证 据 表 明 ， 爱 丽 丝 比 鲍 勃 准备 得 
更 好 ? ”我 们 可 以 用 p_correct 的 后 验 分 布 来 回答 这 个 问题 。 


要 以 贝 叶 斯 假设 检验 的 形式 定义 问题 ， 我 定义 了 两 个 假设 : 


。A: p_correct 上 ， 爱 丽 丝 高 于 鲍 勃 。 
。B: p_correct 上 ， 鲍 勃 高 于 爱丽 丝 。 





要 计算 A 的 似 然 度 ， 可 以 从 后 验 分 布 中 枚 举 所 有 数值 对 ， 再 累加 得 
到 所 有 爱丽 丝 高 于 鲍 勃 的 p_correct 概率 总 和 ， 我 们 已 经 有 一 个 函 
数 thinkbayes .PmfProbGreater 来 实现 它 。 


因此 ， 我 们 可 以 定义 一 个 计算 A 和 B 的 后 验 概 率 的 Suite 对 象 : 


class TopLevel(thinkbayes.Suite) : 
def Update(self, data): 
a_sat, b_ sat = data 


a_like = thinkbayes.PmfProbGreater(a sat, b_sat) 


b_like = thinkbayes.PmfProbLess(a sat, b_sat) 
= thinkbayes.PmfProbEqual(a_sat，b_ sat) 


c_like 


a_like += C_ like / 2 
b like += c like / 2 


self.Mult('A', a_ like) 
self.Mult('B', b_ like) 


self.Normalizel() 





通常 ， 当 我 们 定义 一 个 新 的 Suite 对 象 时 ， 会 继承 Update ， 并 ( 根 
据 模 型 ) 实现 Likelihood 。 本 例 中 ， 则 需要 重 写 Update ， 因 为 这 样 
能 更 容易 同时 评价 两 种 假设 的 似 然 度 。 


传递 到 Update 的 数据 是 表示 了 p_correct 后 验 分 布 的 Sat 对 象 。 


a_like 是 爱丽 丝 较 高 的 p_correct 的 总 概率 ; b_1like 是 鲍 勃 较 
高 的 p_correct 的 总 概率 。 


c_like 是 两 者 “相等 ”的 概率 ， 在 使 用 一 些 离散 值 为 p_correct 建 
模 的 情况 下 ， 这 种 相等 性 就 是 人 为 的 了 。 因 为 ， 如 果 我 们 使 用 更 多 的 
值 ，c_1ike 会 较 小 ， 在 极端 情况 下 ， 如 果 p_correct 是 连续 
的 ，c_1ike 为 零 。 所 以 我 将 c_1ike 作为 一 种 售 入 误差 并 且 在 a_like 
和 b_1like 之 间 的 匀 去 。 


下 面 的 代码 创建 了 TopLevel 并 更 新 它 : 





exam = Exam() 
a_sat = Sat(exam, 780) 
b sat = Sat(exam, 7406) 


top = TopLevel('AB') 
top.Update((a sat, b_sat)) 
top.Print() 





A 的 似 然 度 是 0.79，B 的 似 然 度 为 0.21。 似 然 比 (或 贝 叶 斯 因子 ) 为 
3.8， 这 意味 着 这 些 考 试 成 绩 的 证 据 表 明 ， 在 SAT 成 绩 上 ， 爱 丽 丝 优 于 鲍 
开 。 看 到 考试 成 绩 前 ， 如 果 我 们 相信 A 和 B 可 能 相等 ， 那 么 在 看 到 成 绩 





之 后 ， 我 们 应 该 相信 A 的 概率 是 79%， 这 意味 着 仍然 有 21% 的 可 能 ， 鲍 
动 实际 准备 得 更 好 。 


12.5 一 个 更 好 的 模型 


请 记 住 ， 我 们 运 今 所 做 的 分 析 部 是 基于 所 有 SAT 问 题 是 同等 难度 的 
前 提 下 的 。 实 际 上 ， 有 些 题 比 其 他 题 要 容易 ， 这 意味 着 爱丽 丝 和 鲍 动 之 
间 的 差异 可 能 会 更 小 。 

但 是 这 有 多 大 的 建 模 误差 ? 如 果 误 差 小 ， 我 们 可 以 得 出 第 一 个 模型 
(同等 难度 ) 足够 好 的 结论 。 如 果 误 差 大 ， 就 需要 一 个 更 好 的 模型 。 

在 接 下 来 的 几 市 中 ， 我 们 开发 了 一 个 更 好 的 模型 ， 并 将 会 太 现 〔 剧 
透 一 下 ) 建 模 误 差 束 是 小 的 。 所 以 ， 如 果 你 满意 简化 模型 ， 可 以 跳 过 这 
0 














。 假设 每 个 测试 者 具有 一 定 程度 的 答题 效率 efficacy ， 答 题 效 率 衡 
量 其 回答 SAT 问 题 的 能 

。 假定 每 个 问题 有 不 同 水 平 的 难度 difficulty 。 

。 最 后 ， 假 设 一 个 测试 者 正确 回答 问题 的 机 会 与 答题 效率 efficacy 
和 难度 水 平 difficulty 相关 ， 并 由 下 面 函 数 决定 : 





def ProbCorrect(efficacy, difficulty, a=1): 
return 1 / (1 + math.exp(-a * (efficacy - difficulty))) 





此 函数 是 项 目 啊 应 理论 的 曲线 的 一 个 简化 版 本 ， 你 可 以 参 
考 http:/en.wikipedia.org/wiki/Item_response_theory 。 管 题 效率 和 难度 水 
平 基于 同一 刻度 水 平 ， 得 到 正确 管 案 的 概率 就 只 取决 于 它们 之 间 的 差 
已 


二 o 

当 efficacy 和 difficulty 相同 时 ， 正 确 的 回答 问题 的 概率 为 
50%。 当 efficacy 增加 ， 概 率 接 近 100%， 当 它 降低 (或 者 diffiulty 
增加 ) ， 概 率 接 近 0%。 


己 知 答题 者 在 效率 上 的 分 布 和 所 有 问题 难度 的 分 布 ， 我 们 就 可 以 计 
算 原 始 分 数 的 预期 分 布 。 我 们 将 通过 两 步 完成 。 首 先 ， 对 于 已 知 


efficacy 的 某 个 答题 者 ， 我 们 将 计算 原始 分 数 的 分 布 如 下 : 


def PmfCorrect(efficacy，difficulties) : 
pmf6 = thinkbayes.Pmf([6]) 


ps = [ProbCorrect(efficacy, diff) for diff in difficulties] 
pmfs = [BinaryPmf(p) for p in ps] 

dist = sum(pmfs, pmf0) 

return dist 








difficulties 是 难度 列表 ， 每 一 个 试题 对 应 一 个 难度 值 。ps 为 概 
率 的 列表 ，pmfs 是 这 两 个 值 的 Pmf 对 象 列表 。 下 面 是 对 应 的 创建 函数 : 


def BinaryPmf(p) : 
pmf = thinkbayes.Pmf() 
pmf.Set(1, p) 
pmf.Set(@, 1-p) 
return pmf 





dist 是 这 些 Pmfs 的 总 和 。 还 记得 40 页 当 我 们 添加 Pmf 对 象 时 的 “加 
数 ”， 结 果 是 总 和 的 分 布 。 为 了 使 用 Python 的 sum 函数 来 累加 Pmfs， 我 
们 需要 提供 pmfe 作为 Pmfs 的 标识 ， 所 以 pmf + pmf6 就 等 于 pmf 了 。 


如 果 知 道 答 题 者 的 效率 ， 我 们 可 以 计算 他 们 原始 分 数 的 分 布 。 对 于 
一 群 有 不 同 的 答题 效率 的 人 ， 所 产生 的 原始 分 数 的 分 布 是 混合 的 。 下 面 
征 计算 混合 分 布 的 代码 : 





# class Exam: 


def MakeRawScoreDist(self, efficacies): 
pmfs = thinkbayes .Pmf() 
for efficacy, prob in efficacies.Items(): 
scores = PmfCorrect(efficacy, self.difficulties) 
pmfs.Set(scores, prob) 
mix = thinkbayes.MakeMixture(pmfs) 
return mix 


| 


MakeRawScoreDist 接收 efficacies ， 这 是 一 个 表示 所 有 答题 者 
效率 分 布 的 Pmf 对 象 。 我 假设 它 是 均值 为 0， 标 准 偏差 1.5 的 高 斯 分 布 。 
这 一 假设 相当 主观 。 得 到 一 个 问题 的 正确 的 概率 取决 于 答题 效率 和 试题 
、 所 以 我 们 可 以 选择 效率 的 单位 ， 再 校准 相应 的 题目 难度 的 

立 。 


pmfs 是 包含 每 一 级 别 答题 效率 Pmf 的 一 个 元 Pmf ， 并 映射 到 同一 级 
别 的 测试 者 上 。MakeMixture 接收 元 Pmf 并 计算 混合 的 分 布 (参见 第 45 
页 上 的 “混合 分 布 ”)。 


12.6 ”校准 


如 果 我 们 难度 的 分 布 情况 ， 我 们 就 可 以 使 用 MakeRawSscoreDist 计 
算 原 始 分 数 的 分 布 。 但 对 于 我 们 来 说 ， 问 题 是 类 似 的 其 他 方法 : 有 原始 
分 数 的 分 布 ， 要 推断 难度 的 分 布 。 假设 难度 的 分 布 是 带 有 参数 center 
和 width 的 均匀 分 布 ，MakeDifficulties 可 以 得 到 这 些 参数 下 试题 难 
度 的 列表 。 





def MakeDifficulties(center, width, n): 
low, high = center-width, center+width 
return numpy.linspace(low, high, n) 





通过 尝试 了 几 个 组 合 ， 我 发 现 ，center = -0.05 和 width = 1.8 得 到 
的 原始 分 数 分 布 类 似 于 实际 数据 ， 如 图 12-3 所 示 。 
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原始 分 数 
图 12-3 ”原始 分 数 的 实际 分 布 和 一 个 拟 合 它 的 模型 


因此 ， 假 设 难度 的 分 布 是 均匀 分 布 ， 其 范围 大 约 是 -1.85 至 1.75， 答 
题 效率 是 均值 为 0， 标 准 偏 差 1.5 的 高 斯 分 布 。 


下 表 显 示 了 不 同 效率 级 别 的 测试 者 ProbCorrect 的 范围 : 

















效率 为 3 的 答题 者 (两 个 标准 差 局 于 平均 值 ) 有 99%% 的 机 会 答对 最 简单 
的 问题 ，78% 的 机 会 答对 最 难 的 问题 。 在 区 间 的 力 一 痢 ， 低 于 均值 两 个 
标准 偏差 的 答题 者 ， 只 有 24% 的 机 会 答对 最 简单 的 问题 。 





12.7 ”效率 的 后 验 分 布 


现在 ， 该 模型 已 经 被 校准 了 ， 我 们 可 以 为 爱丽 丝 和 鲍 动 计算 答题 效 
率 的 后 验 分 布 。 下 面 古 一 个 使 用 该 模型 的 Sat 类 的 新 版 本 : 


class Sat2(thinkbayes.Suite): 


def _init (self, exam, score): 
self.exam = exam 
self.score = score 


# start with the Gaussian prior 
efficacies = thinkbayes.MakeGaussianpmf(06, 1.5, 3) 
thinkbayes.Suite. init (self, efficacies) 


# update based on an exam score 
self.Update(score) 





Update 调用 Likelihood ， 这 计算 出 已 知 SAT 得 分 时 ， 答 题 者 假设 
效率 水 平 的 似 然 度 。 


def Likelihood(self, data, hypo): 
efficacy = hypo 
score = data 
raw = self.exam.Reverse(score) 


pmf = self.exam.PmfCorrect(efficacy) 
like = pmf.Prob(raw) 
return like 





pmf 是 已 知 效率 的 答题 者 得 到 的 原始 得 分 的 分 布 ，1ike 征 观 察 到 
分 数 的 概率 。 


图 12-4 显 示 了 爱丽 丝 和 鲍 动 效率 的 后 验 分 布 。 正 如 预期 的 那样 ， 爱 
丽 丝 的 分 布 位 置 更 远 ， 靠 近 右边 ， 但 同样 有 一 些 重 登 部 分 。 


爱丽 丝 的 后 验 780 
鲍 勃 的 后 验 740 
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答题 效率 
图 12-4 爱丽 丝 和 鲍 勃 答题 效率 的 后 验 分 布 
再 次 使 用 TopLevel ， 我 们 比较 假设 A 《爱丽 丝 效 率 更 高 的 假设 ) 
和 假设 B 〈 鲍 勃 效率 更 高 的 假设 ) 。 似 然 比 为 3.4， 比 我 们 从 简化 模型 
(3.8) 得 到 的 小 些 。 因 此 ， 这 个 模型 表明 ， 数 据 的 证 据 文 持 假设 A ， 但 
弱 于 之 前 的 估计 。 


如 果 我 们 的 先 验 是 A 和 B 等 可 能 ， 那 么 参考 这 个 证 据 ， 我 们 会 给 假 
设 A77%% 的 后 验 概率 ， 另 外 有 23% 的 可 能 ， 鲍 勃 的 效率 更 高 。 


12.8 预测 分 布 


到 目前 为 止 我 们 所 做 的 分 析 估 计 了 爱丽 丝 和 鲍 动 的 效率 ， 但 由 于 效 
率 是 无 法 直接 观察 到 的 所 以 难以 验证 结果 。 


为 了 让 模型 有 预测 的 能 力 ， 可 以 用 它 来 回答 一 个 相关 的 问题 :“ 如 
条 爱 朋 丝 和 鲍 动 青 进行 一 次 SAT 数 学 测试 爱丽 丝 比 绝 才 得 分 高 的 可 能 
性 是 多 少 ? ” 


我 们 将 通 两 个 步骤 回答 这 个 问题 


。 使 用 效率 的 后 验 分 布 来 生成 每 个 测试 接受 者 原始 得 分 的 后 验 分 布 。 
。 比较 这 两 个 预测 分 布 ， 计 算 爱 丽 丝 得 到 更 高 分 数 的 概率 。 


我 们 已 经 有 了 大 部 分 需要 的 代码 。 为 了 计算 预测 分 布 ， 可 以 再 次 使 
用 MakeRawScore-Dist : 


exam = Exam() 
a_sat = Sat(exam, 780) 
b sat = Sat(exam, 7406) 


a_pred = exam.MakeRawScoreDist(a sat) 
b_pred = exam.MakeRawScoreDist(b sat) 








接着 ， 我 们 可 以 得 到 在 第 二 次 测验 中 爱丽 丝 比 鲍 动 分 高 ， 鲍 动 分 
高 ， 或 者 他 们 分 数 相同 的 可 能 性 : 


thinkbayes.PmfProbGreater(a_pred，b_pred) 
thinkbayes.PmfProbLess(a_pred，b_pred) 
thinkbayes.PmfProbEqual(a_pred, b_pred) 








爱丽 丝 在 第 二 次 测验 中 得 分 更 高 的 概率 是 63% ， 这 意味 着 鲍 勃 更 高 
分 的 概率 是 37% 。 


”请 注意 ， 我 们 对 爱丽 丝 的 效率 更 有 信心 ， 高 于 下 一 次 测验 的 信心 。 
爱丽 丝 的 效率 较 高 的 后 验 赠 率 是 3:1， 但 在 下 一 个 测试 中 ， 爱 丽 丝 更 好 
的 赔 率 只 有 2:1。 


12.9 讨论 


我 们 以 问题 “爱丽 丝 比 鲍 动 准备 更 充分 的 证 据 有 多 强 ” 为 本 章 的 开 
台 ， 这 个 问题 表面 上 上 听 起 来 像 我 们 想 测 试 两 个 假设 : 要么 爱丽 丝 ， 要 人 么 
鲍 动 准备 得 更 好 。 


但 为 了 计算 这 些 假 设 的 似 然 度 ， 我 们 必须 解决 一 个 估计 问题 。 对 于 
每 个 参加 测试 者 ， 我 们 必须 找到 p_correct 或 efficacy 的 后 验 分 布 。 


这 样 的 值 称 为 干扰 参数 ， 因 为 我 们 实际 上 不 关心 它们 是 什么 ， 但 
为 了 回答 所 关心 的 问题 必须 估计 这 些 量 。 


本 章 中 我 们 实现 可 视 化 分 析 结 果 的 方法 是 绘制 这 些 参数 的 空间 分 
布 。 Mn ay MakeJoint 接收 两 个 Pmfs 对 象 ， 计 算 它们 的 联合 分 
布 ， 并 返回 每 个 可 能 的 值 和 概率 对 的 概率 密度 函数 。 


def MakeJoint(pmf1, pmf2): 
joint = Joint() 
for v1i, pl in pmf1.Items() : 
for v2, p2 in pmf2.Items() : 


joint.Set((v1i, v2), pl * p2) 
return joint 





此 函数 假设 两 个 分 布 是 独立 的 。 


图 12-5 显 示 了 p_correct 〈 爱 丽 丝 和 鲍 勃 ) 的 联合 后 验 分 “| 同 
中 的 对 角 线 表示 爱丽 丝 和 鲍 勃 的 p_ correct 相同 的 情况 。 在 这 条 线 的 右 
边 ， 说 明 爱 丽 丝 准 备 得 更 好 ; 左边， 说 明 饱 勃 准备 得 更 好 。 
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图 12-5 ”爱丽 丝 和 鲍 勃 p_correct 的 联合 后 验 分 布 


在 TopLevel.Update 中 ， 当 计算 A 和 B 的 似 然 性 时 ， 我 们 累加 了 
这 条 线 两 侧 的 概率 质量 。 对 于 落 在 该 行 的 单元 格 ， 我 们 累加 A 和 B 之 间 
的 总 质量 ， 并 把 它 匀 到 A 和 B 中 。 


我 们 本 章 中 使 用 的 过 程 _ 为 了 计算 两 个 互 斥 假设 的 似 然 度 而 估计 
干扰 参数 -是 一 种 常见 的 解决 类 似 问题 的 贝 叶 斯 方法 。 





第 13 草 ”模拟 


在 本 章 中 ， 我 描述 了 一 个 骨 肿 瘤 患者 所 提问 题 的 解决 方案 。 我 认为 
这 个 问题 对 于 患者 和 进行 医治 的 医生 来 说 都 是 重要 和 有 关系 的 。 
我 认为 它 很 有 趣 ， 因 为 这 昌 然 是 一 个 贝 叶 斯 问题 ， 但 是 使 用 贝 叶 斯 


的 方式 却 是 隐 仿 的。 我 列 出 了 解法 和 代码 ， 在 本 章 结尾 ， 我 将 解释 贝 叶 
斯 的 部 分 。 


如 果 你 想 了 解 更 多 的 技术 细节 ， 可 以 在 
http://arxiv.org/abs/1203.6890 阅读 我 有 关 这 项 工作 的 论文 。 





13.1 肾 肿 瘤 的 问题 


我 是 在 线 统计 论坛 http:/Wreddit.com/r/statistics 的 忠实 用 户 ， 也 偶尔 
贡献 些 内 容 。2011 年 11 月 ， 我 在 那儿 读 到 了 以 下 消息 : 


“我 现在 处 于 第 人 期 肾 癌 ， 想 确定 癌症 是 否 是 在 我 从 部 队 退 役 以 前 
就 形成 的 提供 退伍 和 确诊 的 日 期 是 否 可 以 确定 有 50/50 的 可 能 我 是 
这 么 得 病 的 ? 是否 有 可 能 确定 我 在 退伍 日 期 时 患 病 的 概率 是 多 少 ? 确诊 
时 ， 我 的 肿瘤 为 15.5x15 厘 米 ， 了 级 。” 


我 联系 了 消息 的 作者 ， 并 获得 了 更 多 的 信息 ， 我 了 解 到 ， 如 果 肿 
瘤 “ 可 能 而 非 不 是 ” 叫 是 在 部 队 服役 期 间 形 成 的 ， 退 伍 军人 可 以 得 到 补偿 
古人 不同 的 〈 除 其 他 因素 外 )〉。 


因为 凤 肿 瘤 生长 缓慢 ， 通 常 也 没有 什么 引发 的 症状 ， 可 以 有 时 并 不 
进行 治疗 。 但 医生 还 是 会 观察 肿瘤 ， 并 比较 同一 病人 未 处 理 的 肿瘤 在 不 
同时 间 的 生长 速率 。 有 几 篇 论文 报导 了 这 些 生长 率 。 


我 从 Zhang % 的 论文 中 找到 了 一 些 数据 ， 并 且 联 系 了 作者 看 能 否 得 
到 原始 数据 。 不 过 他 们 以 患者 隐私 的 原则 回绝 了 。 不 过 我 还 是 能 够 绘制 
出 他 们 的 报告 数据 图 形 ， 再 按 规则 进行 测量 来 提取 出 我 需要 的 数据 。 


他 们 以 倍增 时 间 增 长 紊 倒数 (RDT) 的 形式 报告 了 增长 率 ， 即 以 倍 
增 体 /每 年 的 形式 。 因 此 ，RDT =1 表 示 肿 瘤 每 年 增长 双 倍 体积 ，RDT =2 
表示 它 每 年 四 倍 ; RDT =-1， 表 示 一 半 。 图 13-1 显 示 了 53 例 患者 RDT 的 
分 布 。 
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图 13-1 RDT (每 年 倍增 体积 ) 的 CDF 


方块 是 论文 上 的 数据 点 ， 虚线 是 我 就 数据 拟 合 而 成 的 模型 。 该 线条 
的 正 值 部 分 和 指数 分 布 拟 合 得 很 好 ， 所 以 我 用 了 两 个 混合 的 指数 函数 。 














13.2 一 个 简化 模型 


在 尝试 更 有 挑战 性 的 东西 之 前 ， 采 用 简化 模型 一 般 古 不 错 的 。 对 于 
手头 的 一 些 问题 简化 模型 有 时 束 足 够 了 ， 而 且 如 果 不 是 ， 你 还 可 以 用 简 
化 模型 来 验证 更 复杂 的 模型 。 


我 的 简化 模型 是 : 认为 肿瘤 的 生长 具有 恒定 的 倍增 时 间 ， 而 且 肿瘤 
征 三 维 的 ， 即 如 果 每 一 维 长 度 测量 值 翻 倍 ， 体 积 就 是 增长 八 倍 〈2x2x2 
=8) 。 


我 从 和 案例 的 合作 者 解 到 ， 他 从 军队 退伍 到 诊断 日 是 3291 天 〈 约 9 
年 ) 。 所 以 ， 首 先 要 计算 的 就 是 “如 果 肿 瘤 以 中 位 速率 增长 ， 那 么 它 在 
退伍 日 时 有 多 大 ? ” 


体积 倍增 时 间 的 中 位 数 ， 从 Zhang 的 报告 中 看 约 为 811 天 。 假 设 一 个 
三 维 几何 体 ， 长 度 值 的 倍增 时 间 为 该 值 的 3 倍 。 








# time between discharge and diagnosis, in days 
interval = 3291.6 


# doubling time in linear measure is doubling time in volume * 3 
dt = 811.06 * 3 


# number of doublings since discharge 
doublings = interval / dt 


# how big was the tumor at time of discharge (diameter in cm) 
d1 = 15.5 
de= dl / 2.0 ** doublings 





你 可 以 从 http:Wthinkbayes.comy/kidney.py 下 载 本 章 代 人 码 。 更 多 信息 ， 
请 参见 前 言 的 “代码 指南 ”。 


结果 de 约 6 厘米 。 因 此 ， 如 宁 这 个 肿瘤 是 在 退伍 日 期 后 形成 的 ， 它 
必须 以 大 幅 超 过 平均 速度 的 速度 增长 。 因 此 ， 我 可 以 断言 肿瘤 是 “可 能 
而 非 不 是 ?在 退伍 前 形成 的 。 

















此 外 ， 我 计算 的 增长 率 能 暗示 肿瘤 是 否 是 退伍 前 形成 的 。 如 果 假 设 
其 初始 大 小 为 0.1 厘 米 ， 我 们 可 以 计算 出 达到 15.5 厘 米 最 终 矿 寸 的 倍增 


里 : 
# assume an initial linear measure of 6.1 cm 


d6 = 60.1 
d1 = 15.5 


# how many doublings would it take to get from de to d1 
doublings = log2(d1 / d6) 


# what linear doubling time does that imply? 


dt = interval / doublings 


# compute the volumetric doubling time and RDT 
vdt = dt /3 
rdt = 365 / vdt 





dt 是 线性 的 倍增 时 间 ， 所 以 vdt 是 体积 的 倍增 时 间 ，rdt 是 倒数 倍 
增 时 间 。 


倍增 量 以 线性 长 度 衡量 是 7.3， 这 意味 着 RDT 是 2.4。 在 Zhang 等 人 的 
数据 中 ， 只 有 20% 的 肿瘤 在 观察 期 中 增长 这 么 快 。 


所 以 ， 再 一 次 ， 我 得 出 的 结论 是 “ 较 有 可 能 ”肿瘤 形成 于 退伍 前 。 


这 些 计算 都 足以 回答 前 面 的 那个 问题 ， 我 代表 合作 者 给 退伍 军人 福 
利 处 VBA 写 了 一 封 信 ， 人 解释 我 的 结论 ， 后 来 我 还 将 结果 告诉 了 我 的 一 个 
肿瘤 科 医 生 朋 友 。 他 对 Zhang 等 人 观察 到 的 肿瘤 增长 速度 和 生长 年 龄 感 
到 惊讶 。 他 指出 对 于 研究 人 员 和 医生 ， 这 一 结果 都 会 引起 关注 。 


但 是 为 了 让 模型 更 有 用 ， 我 想 要 找到 一 个 更 普 衣 的 肿瘤 年 龄 和 大 小 
之 间 的 模型 。 


13.3 ”更 普 过 的 模型 


己 知 肿瘤 在 诊断 时 的 大 小 ， 如 果 知 道 肿 瘤 在 茶 一 个 给 定时 间 前 形成 
的 概率 ， 即 肿瘤 年 龄 《生长 时 间 ) 的 分 布 是 最 有 用 的 。 


为 了 得 出 结论 ， 我 运行 了 模拟 肿瘤 生长 的 程序 ， 得 到 在 已 知 生 长 年 
龄 的 条 件 时 ， 肿 瘤 大 小 的 分 布 。 然 后 我 们 可 以 用 贝 叶 斯 方法 得 到 已 知 肿 
瘤 尺 寸 条 件 时 的 年 龄 分 布 。 

模拟 以 一 个 小 肿瘤 开始 ， 并 以 下 面 这 些 步 又 运行 : 

1. 从 RDT 的 分 布 中 选取 一 个 增长 率 ; 

2. 在 每 个 区 间 的 结尾 计算 肿瘤 的 尺寸 ; 

3. 记录 在 每 个 时 间 间 隔 里 肿瘤 的 尺寸 ; 

4. 重复 ， 直 到 肿瘤 超过 最 大 的 相应 尺寸 。 

对 于 初始 扩 寸 ， 我 选取 了 0.3 厘 米 ， 因 为 比 这 小 的 肿瘤 不 太 可 能 
侵入 性 以 及 快速 增长 所 需 的 血液 供应 〈 见 
http://en.wikipedia.org/wiki/Carcinoma_in_situ ) 。 


我 选择 了 245 天 《〈 约 8 个 月 ) 的 区 间 ， 因 为 这 是 数据 源 中 测量 对 象 的 
平均 时 间 。 

最 大 尺寸 我 选择 了 了 20 厘米 ， 在 数据 源 中 ， 观 察 肿 瘤 的 尺寸 范围 是 
1.0 一 12.0 厘 米 ， 所 以 可 以 推断 这 超出 了 观测 范围 的 两 端 ， 但 不 多 ， 而 且 
不 太 可 能 对 结果 有 显著 影响 。 


仿真 基于 一 个 较 大 的 简化 : 增长 率 设置 为 在 每 个 区 间 内 是 独立 互 不 
影响 的 ， 因 此 它 不 依赖 于 年 龄 、 大 小 ， 或 前 一 个 区 间 的 生长 速率 。 


在 第 135 页 的 “序列 相关 性 ?中 ， 我 回顾 评估 了 这 些 假设 并 考虑 了 更 
加 详细 的 模型 。 不 过 我 们 首先 来 看 一 些 例 子 。 


图 13-2 显 示 了 模拟 的 肿瘤 尺寸 函数 “图 形 〉， 以 年 龄 作为 变量 。10 




















厘米 处 的 虚线 显示 了 肿瘤 在 该 太 才 的 年 龄 范围 : 增长 最 快 的 肿瘤 为 8 
年 ; 最 慢 的 超过 35 年 。 


肿 猪 增长 模拟 


20 


10 


肿瘤 直径 (以 厘米 计 ， 对 数 刻度 ) 
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肿瘤 年 龄 (生长 时 间 ) 


图 13-2 ”肿瘤 增长 的 模拟 时 间 和 大 小 


我 用 线性 测度 展示 出 结果 ， 但 计算 实际 上 是 依据 体积 进行 的 。 同 
样 ， 为 了 从 一 个 转换 到 另 一 个 ， 我 以 给 定 的 直径 来 表示 球体 的 体积 。 











13.4 ”实现 
下 面 是 这 一 模拟 的 核心 代码 : 


def Makesequence(rdt_seq，v6=6.91，interval=0.67，vmax=Volume(20.6)): 
seq = V0， 
age = 0 


for rdt in rdt seq: 
age += interval 
final, seq = ExtendSequence(age, seq, rdt, interval) 
if final > vmax: 
break 


return seq 





rdt_seq 是 从 增长 率 CDF 产生 随机 数 的 近代 器 。ve 是 以 坚 升 
(mL) 表示 的 初始 体积 。interval 是 以 年 计 的 时 间 间 隔 。vmax 是 对 
应 20 厘 米 长 度 的 最 终 体积 。 


Volume 把 长 度 测量 的 厘米 《cm) 数 转化 为 坚 升 (mL) 体积， 基于 
该 肿瘤 是 一 个 简化 球体 这 个 前 提 条 件 : 


def Volume(diameter, factor=4*math.pi/3): 
return factor * (diameter/2.0)**3 





ExtendSequence 在 时 间 间 隔 结束 时 计算 肿瘤 的 体积 。 





def ExtendSequence(age, seq, rdt, interval): 
initial = seq[-1] 
doublings = rdt * interval 
final = initial * 2**doublings 
new seq = seq + (final,) 
cache.Add(age, new seq, rdt) 


return final, new seq 


age 是 肿瘤 在 间隔 区 间 结 束 时 的 生长 年 龄 。seq 是 一 个 包含 当前 体 
积 的 元 组 。rdt 是 间隔 期 间 的 增长 率 ， 每 年 倍增 。interval 是 以 年 计 
的 时 间 步 长 。 


返回 值 final 是 肿瘤 在 时 间 间 隔 结束 时 的 体积 ， 而 new_seq 是 一 个 
新 的 含有 seq 加 上 新 算出 的 体积 final 的 元 组 。 


Cache.Add 在 每 个 时 间 间 隔 的 未 尾 记 录 每 个 肿瘤 的 年 龄 和 尺寸 ， 下 
面 会 进行 解释 。 





13.5 ”组 存 联合 分 布 
以 下 是 cache 的 功能 。 


class Cache(object): 


def init (self): 
self.joint = thinkbayes.Joint() 





joint Sy -尺寸 对 频率 的 联合 Pmf 对 象 ， 所 以 它 
近似 于 年 龄 和 大 小 的 联合 分 


在 每 个 模拟 间隔 结束 时 ，ExtendSequence 调用 Add : 


# class Cache 


def Add(self, age, seq): 
final = seq[-1] 
cm = Diameter(final) 
bucket = round(CmToBucket(cm)) 
self.joint.Incr((age, bucket)) 





同样 ，age 为 肿瘤 的 年 龄 ，sed 是 肿瘤 目前 体积 的 值 序列 。 


添加 新 数据 到 联合 分 布 前 ， 我 们 用 Diameter 将 体积 转换 到 直径 ， 
以 厘米 为 单位 : 


def Diameter(volume, factor=3/math.pi/4, exp=1/3.0): 
return 2 * (factor * volume) ** exp 





CmToBucket 将 厘米 转换 到 一 个 离散 的 量 bucket: 


def CmToBucket(x, factor=10): 
return factor * math.1log(x) 








buckets 等 间隔 分 布 于 对 数 标 度 。 利 用 factor = 10 得 出 一 个 合理 的 
buckets 数 量 ， 例 如 ，1 厘 米 映射 到 bucket 0，10 厘 米 映射 到 bucket 23 号 。 


运行 模拟 后 ， 我 们 就 可 以 绘制 联合 分 布 的 伪 彩 图 ， 其 中 每 个 单元 格 
代表 在 给 定 的 大 小 一 年 龄 对 观察 到 的 肿瘤 的 数目 。 


图 13-3 显 示 了 1000 次 模拟 后 的 联合 分 布 。 


肿瘤 直径 〈 以 厘米 计 ， 对 数 刻度 ) 
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图 13-3 ”肿瘤 大 小 和 年 龄 的 联合 分 布 
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13.6 条件 分 布 


通过 从 联合 分 布 取 垂直 切片 ， 我 们 可 以 得 到 对 于 任何 给 定年 龄 的 尺 
大 小 分 布 。 通 过 做 一 份 水 平 切 片 ， 我 们 可 以 得 到 给 定 尺 寸 的 年 龄 分 

下 面 是 对 于 一 个 给 定 的 大 小 读 取 联 合 分 布 ， 并 建立 条 件 分 布 的 代 
码 。 


# class Cache 


def ConditionalCdf(self, bucket): 
pmf = self.joint.Conditional(6@, 1, bucket) 


cdf = pmf.MakeCdf() 
return cdf 





bucket 是 对 应 于 肿瘤 大 小 的 整数 值 。Joint.Conditional 计算 给 
定 bucket 值 下 年 龄 的 PMF。 其 结果 是 给 定 bucket 下 年 龄 的 CDF。 


图 13-4 显 示 了 这 样 几 个 在 不 同 大 小 下 的 CDF。 总 结 这 些 分 布 ， 我 们 
可 以 计算 出 不 同 大 小 函数 下 的 百 分 位 数 。 


CDF 
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肿瘤 生长 时 间 〈 以 年 计 ) 


图 13-4 给 定 大 小 条 件 下 ， 肿 瘤 生 长 年 龄 的 分 布 





percentiles = [95，75，56，25，5] 


for bucket in cache.GetBuckets() : 
cdf = ConditionalCdf(bucket) 


ps = [cdf.Percentile(p) for p in percentiles] 





图 13-5 显 示 了 每 个 大 小 区 间 的 这 些 百 分 位 数 。 数 据点 从 估计 的 联合 
分 布 中 计算 得 到 。 在 该 模型 中 大 小 和 时 间 是 离散 的 ， 这 产生 了 数值 误 
产 ， 所 以 我 也 展示 了 束 每 个 百 分 位 数 序列 的 最 小 二 乘 拟 合 曲 线 。 


肿瘤 生长 时 间 〈 以 年 计 ) 


年 龄 对 直径 的 置信 区 间 (95、75、50 和 25、5 百 分 位 数 序 列 的 拟 合 直线 ) 
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肿瘤 直径 (以 厘米 计 ， 对 数 刻度 ) 


图 13-5 ”肿瘤 的 年 龄 作为 大 小 的 函数 的 百 分 位 数 





13.7 序列 相关 性 


到 目前 为 止 ， 得 到 的 结果 都 是 基于 多 项 建 模 决定 的 ;让 我 们 回顾 一 
下 这 些 建 横 ， 看 看 哪些 是 误差 最 有 可 能 的 来 源 。 


。 要 转换 线性 测量 到 体积 ， 我 们 假设 肿瘤 近似 于 球形 。 这 个 假设 对 于 
几 厘 米 的 肿瘤 很 合适 ， 对 非常 大 的 肿瘤 却 不 行 。 

在 模拟 过 程 中 ， 增 长 率 的 分 布 是 基于 一 个 我 们 选择 的 和 Zhang 所 报 
导数 据 拟 合 的 连续 模型 ， 数 据 基 于 53 名 患者 。 该 拟 合 只 是 近似 的 ， 
更 重要 的 是 ， 大 一 些 的 样本 可 能 产生 不 同 的 分 布 。 

生长 模型 没有 考虑 肿瘤 亚 型 或 等 级 。 这 一 假设 是 为 了 与 Zhang 等 人 
的 结论 保持 一 致 : “不 同 大 小 、 子 类 型 和 等 级 肯 肿 瘤 的 增长 率 构 成 
了 一 个 广泛 的 范围 并 且 实 际 上 重合 了 在 一 起 了 。*” 但 是 在 大 的 样本 
量 下 ， 它 们 之 间 的 差 腊 可 能 会 变 得 更 明显 。 

生长 速率 的 分 布 不 依赖 于 肿瘤 的 大 小 。 对 于 非常 小 和 非常 大 的 肿 

瘤 ， 这 一 假设 是 不 符合 实际 的 ， 增 长 是 由 血液 供应 所 限制 的 。 


但 Zhang 等 人 观测 的 肿瘤 大 小 为 1-12 厘 米 ， 而 他 们 没有 发 现 大 小 和 
增长 速度 之 间 的 统计 性 显著 关系 。 所 以 如 条 实际 上 关联 存在 ， 它 至 少 在 
这 个 扩 二 范围 内 很 可 能 只 是 弱 的 (译注 : 表示 没有 关联 )。 

。 在 仿真 中 ， 每 个 间 隅 期 间 的 增长 速率 是 独立 于 之 前 间隔 的 增长 率 

的 。 实 际 上 这 是 似是而非 的 ， 迅 速 增长 过 了 的 肿瘤 更 可 能 (在 下 一 

个 间 隅 ) 继 续 快速 增长 。 换 名 话说， 增长 速率 可 能 前 后 相关 。 


其 中 ， 第 一 个 和 最 后 一 个 似乎 最 有 问题 。 首 先 调查 下 前 后 相关 性 ， 
再 回 过 头 来 考虑 球面 几何 因 系 。 


为 了 模拟 有 相关 性 的 肿瘤 生长 ， 我 写 了 一 个 generator 9， 能够 从 一 
个 给 定 的 Cdf 产 生 一 个 相关 系列 。 下 面 是 该 算法 的 工作 原理 。 


1. 从 高 斯 分 布 生成 相关 值 。 这 很 容易 ， 因 为 我 们 能 以 前 一 值 为 条 
件 计算 下 一 值 的 分 布 。 


2. 利用 高 斯 CDF， 将 每 个 值 转换 为 其 累积 概率 。 



































3. 通过 给 定 Cdf， 将 累积 概率 转换 为 相应 值 。 
代码 如 下 : 


def CorrelatedGenerator(cdf, rho): 
x = random.gauss(6，1) 
yield Transform(x) 


sigma = math.sqrt(1 - rho**2); 

while True: 
x = random.gauss(x * rho, sigma) 
yield Transform(x) 





cdf 是 所 需 的 Cdf ; rho 是 所 求 的 相关 性 因子 ，x 是 高 斯 
值 ，Transform 再 把 它们 转换 成 所 需 的 分 布 。 

x 的 第 一 个 值 是 均值 为 0， 标 准 偏差 为 1 的 高 斯 值 。 对 于 后 续 值 ， 平 
均值 和 标准 偏差 依赖 于 先前 的 值 。 给 定 上 一 个 x ， 下 一 个 值 的 平均 值 
为 x * rho ， 方 差 为 1- rho **2 。 


Transform 从 每 个 高 斯 值 x 映射 到 一 个 给 定 Cdf 的 值 y 。 








def Transform(x): 
p = thinkbayes.GaussianCdf(x) 
y = cdf.Value(p) 


return y 








GaussianCdf 计算 在 x 上 标准 高 斯 分 布 的 CDE， 返 回 累积 概 
率 。Cdf.Value 从 累积 概率 映射 到 cdf 的 对 应 值 。 


根据 cdf 的 形状 ， 信 息 可 能 会 在 转换 中 遗失 ， 所 以 实际 相关 性 可 能 
比 rho 更 低 。 例 如 ， 当 我 从 rho = 0.4 的 增长 率 产生 10000 个 值 ， 实 际 相 
关 性 为 0.37。 但 是 ， 由 于 我 们 只 是 在 对 正确 的 关系 量 进行 猜测 ， 这 就 足 
够 接近 实际 了 。 


请 记 住 ，MakeSequence 需要 以 一 个 迭代 器 作为 参数 。 该 接口 允许 
以 不 同 的 生成 器 作为 参数 : 


iterator = UncorrelatedGenerator(cdf) 
seq1 = MakeSequence(iterator) 


iterator = CorrelatedGenerator(cdf, rho) 
seq2 = MakeSequence(iterator) 





在 这 个 例子 中 ，seq1 和 seq2 从 同一 分 布 取 得 ， 但 seq1 中 的 值 是 
不 相关 的 ， 而 seq2 的 值 以 近似 于 rho 的 系数 相关 。 


现在 ， 我 们 可 以 看 到 序列 相关 性 对 结果 产生 的 效果 。 下 面 的 表 显 示 
了 一 个 6 厘米 的 肿瘤 的 年 龄 百 分 位 数 ， 分 别 采 用 了 不 相关 的 生成 器 和 有 
相关 性 p =0.4 的 生成 器 。 


FE 龄 的 百 分 位 数 





序列 相关 性 直径 (厘米 ) 





相关 性 使 得 增长 最 快 的 肿瘤 更 快 ， 最 慢 的 速度 更 慢 ， 所 以 年 龄 的 范 
围 就 越 宽 。 不 同 的 是 它 对 于 低 百 分 位 数 是 适中 的 ， 但 对 于 第 95 百 分 位 就 
是 6 年 多 。 为 了 精确 计算 这 些 百 分 位 数 ， 我 们 需要 一 个 更 好 的 实际 前 后 
相关 性 的 估计 。 


然而 ， 这 种 模式 就 足以 回答 我 们 开始 的 问题 ， 给 定 一 个 长 度 尺寸 是 
15.5 厘 米 的 肿瘤 ， 它 形成 了 8 年 以 上 的 概率 是 多 少 ? 


下 面 是 代码 : 





# class Cache 


def ProbOlder(self, cm, age): 
bucket = CmToBucket(cm) 
cdf = self.ConditionalCdf(bucket) 


p = cdf.Prob(age) 
return 1-p 





cm 是 肿瘤 的 大 小 ; age 是 以 年 计 的 靖 值 。Prob0lder 转换 大 小 到 
bucket 数 ， 得 到 给 定 bucket 下 的 年 龄 的 Cdf ， 并 计算 这 个 年 龄 超过 给 定 值 
的 概率 。 


生长 没有 前 后 相关 性 的 条 件 下 ， 一 个 15.5 厘 米 肿 瘤 的 年 龄 是 8 岁 以 
上 的 概率 是 0.999 ， 几 乎 确切 无 颖 了。 相关 为 0.4 的 前 提 下 ， 即 一 个 更 快 
生长 的 肿瘤 ， 概 率 仍 然 是 0.995。 即 使 相关 性 为 0.8， 概 率 还 是 0.978。 


误差 的 男 一 个 可 能 来 源 就 是 假设 肿瘤 近似 于 球形 。 对 于 一 个 长 度 尺 
寸 为 15.5 x15 厘 米 的 肿瘤 ， 这 种 假设 可 能 不 合适 。 如 果 人 合适， 就 好 像 是 
说 ， 如 果 这 个 尺寸 的 肿瘤 是 相对 平坦 的 ， 应 该 和 半径 6 厘米 球体 的 肿瘤 
具有 相同 的 体积 。 即 使 考虑 到 更 小 的 体积 和 相关 性 0.8， 年 龄 大 于 8 的 可 
能 性 仍然 是 95%。 


. 因此 ， 即 使 考虑 到 建 模 误差 ， 这 么 大 的 肿瘤 形成 不 到 8 年 也 是 不 可 
能 的 。 


13.8 讨论 


好 了 ， 我 们 一 整 章 都 没有 使 用 贝 叶 斯 定理 或 封装 了 贝 叶 斯 更 新 的 
Suite 类 。 人 怎么 回 事 ? 


理解 贝 叶 斯 定理 的 一 种 方法 是 将 其 作为 反问 得 到 条 件 概率 的 一 个 算 
法 。 给 定 p (B81|A ) ， 只 要 我 们 知道 p (A ) 和 p(B ) ， 就 可 以 计算 
p (AIB ) 。 当 然 只 有 在 计算 p (BIA ) 比 p CAB ) 容易 的 情况 下 ， 该 
算法 才 是 有 用 的 《由 于 某 些 原因 ) 。 


在 这 个 例子 中 ， 通 过 运行 仿真 ， 我 们 可 以 估算 已 知 年 龄 条 件 时 矿 二 
的 分 布 ， 或 p《〈《 尺 二 年龄 ) 。 但 已 知 尺 寸 时 年 龄 的 分 布 ， 即 p“〈 年 龄 | 尺 
寸 ) 是 很 难得 到 的 。 因 此 ， 这 似乎 是 一 个 绝 好 的 应 用 贝 叶 斯 定理 的 机 
2 


我 没有 这 么 做 的 原因 是 计算 效率 。 要 估计 对 于 任何 给 定 尺 寸 的 
p 《尺寸 年龄 ) ， 你 必须 运行 相当 量 的 模拟 。 最 后 ， 你 要 在 很 大 范围 的 
尺寸 区 间 来 计算 p《〈 尺 十 年 龄 ) 。 事 实 上 ， 你 最 终 将 计算 整个 尺寸 和 年 
龄 的 联合 分 布 pD〈 尺 寸 ， 年 龄 ) 。 

而 一 旦 得 到 联合 分 布 ， 就 的 确 不 需要 贝 叶 斯 定理 了 ， 你 可 以 通过 切 
片 从 联合 分 布 提取 p“ 年 龄 | 尺寸 ) ， 这 已 经 在 ConditionalCcdf 中 闻 述 


所 以 ,我们 是 绕 过 了 贝 叶 斯 ， 但 我 们 与 他 精神 同 在 。 








Q 此 处 原文 是 more likely than not， 也 可 以 意译 为 可 能 ， 考 虑 案例 的 特 
殊 性 ， 应 该 和 法 律 严 说 行 文 有 关 ， 所 以 直译 。 


@ Zhang 等 . 利用 一 系列 容积 CT 测量 法 确定 肾 肿 瘤 的 生长 速率 分 布 
[J] . 放射 学 2009，1 (250 页 ) 137-144。 


(3) 译 者 注 : bucket 直 译 不 恰当 ， 保 留 原文 。 


由 如 果 你 对 Python generator 不 熟悉 ， 请 参见 
http://wiki.python.org/moin/Generators 。 


信和 Bn 3 YA -十 上 | 
第 14 草 ” 层 识 化 模型 
14.1 盖 半 计数 器 问题 
我 是 从 汤姆 :坎贝尔 -里 基 欧 那儿 知道 下 面 这 个 问题 的 ， 他 是 “最 大 
炉 ”博客 http:/maximum-entropy-blog.blogspot.com 的 作者 。 而 他 是 从 经 
典 的 《概率 论 : 科学 的 逻辑 》 的 作者 E.T. 杰 恩 斯 那儿 知道 这 个 问题 的 : 
假设 一 个 放射 源 ， 以 平均 每 秒 r 个 粒子 的 速度 向 一 个 盖 革 计数 
器 发 射 粒子 ， 但 计数 器 只 能 记录 击 中 它 的 粒子 的 一 部 分 ， 一 个 分 
数 f， 如 果 f 为 10% 而 且 计 数 器 在 1 秒 的 时 间 内 记录 了 15 个 粒子 ， 那 
么 粒子 击 中 计数 器 的 实际 数量 n 的 后 验 分 布 是 什么 ? 粒子 平均 发 射 
速率 r 的 后 验 分 布 是 什么 ? 


要 解决 这 样 一 个 问题 ， 我 们 要 考虑 系统 以 这 些 参数 为 开始 ， 以 观测 
到 的 数据 为 结束 之 间 的 关系 链 : 


1. 放射 源 以 平均 速率 r 发 射 粒子 。 
2. 在 任何 给 定 的 1 秒 内 ， 放 射 源 问 计数 器 发 射 了 mn 个 粒子 。 
3. n 个 粒子 中 ， 只 有 其 中 k 个 被 记录 下 来 。 














原子 可 变 的 概率 在 任何 时 间 都 是 相同 的 ， 所 以 放射 性 衰变 可 以 很 好 
建 模 为 一 个 泊 松 过 程 。 已 知 r， 则 的 分 布 是 参数 为 r 的 泊 松 分 布 。 


并 且 如 宋 我 们 假设 检测 到 每 个 粒子 的 概率 是 独立 的 ,K 的 分 布 即 是 
参数 为 n 和 f 的 二 项 分 布 。 


给 定 系 统 的 参数 ， 可 以 求 得 数据 的 分 布 。 所 以 我 们 可 以 用 所 谓 的 正 
问 问 题 〈 直 接 思 路 ) 来 解决 。 


现在 ， 我 们 希望 用 另 一 个 方法 : 已 知 数据 ， 求 得 参数 的 分 布 。 这 就 
是 所 谓 的 逆向 问题 。 如 果 能 解决 正 癌 问题 ， 你 就 可 以 使 用 贝 叶 斯 方法 
来 解决 逆 癌 问题 。 


14.2 ”从 简单 的 开始 


让 我 们 从 间 题 的 一 个 简单 的 版 本 一 一 已 知 r 值 一 一 开始 。 给 定 f 的 
值 ， 所 以 要 做 的 就 是 估计 


我 定义 了 一 个 名 为 Detector 的 Suite 对 象 ， 对 检测 器 建 模 并 估算 n 


class Detector(thinkbayes.Suite): 


def init (self, r, f, high=560, step=1): 
pmf = thinkbayes.MakePoissonpmf(r, high, step=step) 
thinkbayes.Suite. init (self, pmf, name=r) 


self.r=r 
self.f = ff 





如 果 平 均 发 射 速率 为 每 秒 r 个 粒子 ， 则 mm 的 分 布 是 参数 为 r 的 泊 松 分 
布 。high 和 step 定义 为 的 上 界 和 假设 值 的 步 长 大 小 。 


现在 我 们 需要 一 个 似 然 函数 : 


# class Detector 


def Likelihood(self, data, hypo): 
k = data 
n hypo 
p = self.f 


return thinkbayes.EvalBinomialpmf(k, n, p) 





data 是 检测 到 的 粒子 数量 ，hypo 是 发 射出 的 粒子 的 假设 数量 。 


如 果实 际 上 有 n 个 粒子 ， 并 且 检 测 到 它们 中 的 任何 一 个 的 概率 为 f 
， 则 检测 到 k 个 粒子 的 概率 由 二 项 分 布 给 出 。 


这 就 是 检测 需 对 象 了 。 我 们 可 以 试 着 求 出 7 值 的 范围 : 


r in [1686，256，466] : 
suite = Detector(r, f, step=1) 


suite.Update(k) 
print suite.MaximumLikelihood() 





图 14-1 显 示 了 n 对 于 几 个 给 定 r 值 的 后 验 分 布 。 
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图 14-1 3 个 不 同 r 值 Fn 的 后 验 分 布 。 


14.3 ”分 层 模 型 


在 上 一 节 中 ， 我 们 假设 为 已 知 的。 现在 ， 让 我 们 放松 这 一 假设 。 
ee 称 为 Emitter ， 即 对 发 射 右 建 模 并 估计 r 的 
范围 : 


class Emitter(thinkbayes.Suite) : 


def _ init (self, rs, f=0.1): 
detectors = [Detector(r, f) for r in rs] 
thinkbayes.Suite. init (self, detectors) 





rs 是 r 假设 值 的 序列 。detectors 是 检测 器 对 象 的 序列 ， 每 一 个 对 
应 于 一 个 r 值 。 对 象 中 就 是 检测 器 的 每 个 值 ， 所 以 Emitter 是 一 个 元 Suite 
对 象 ; 也 束 是 说 ， 它 是 以 其 他 Suite 对 象 为 值 的 Suite 对 象 。 


要 更 新 Emitter， 我 们 必须 计算 每 个 "的 假设 值 下 的 数据 的 似 然 度 。 
但 r 的 各 值 是 由 一 个 包含 了 n 值 范 围 的 检测 器 对 象 表示 的 。 


要 计算 对 于 给 定 的 检测 器 下 数据 的 似 然 度 ， 我 们 通过 循环 n 的 所 有 
值 ， 然 后 累加 k 的 总 概率 。SuiteLikelihood 实现 这 个 功能 : 








# class Detector 


def SuiteLikelihood(self, data): 
total = 6 
for hypo, prob in self.Items(): 


like = self.Likelihood(data, hypo) 
total += prob * like 
return total 





现在 我 们 可 以 写 出 发 射 锅 的 似 然 函 数 : 


# class Detector 


def Likelihood(self, data, hypo): 
detector = hypo 
like = detector.SuiteLikelihood(data) 
return like 








每 一 个 hypo 是 一 个 检测 器 ， 所 以 我 们 可 以 调用 SuiteLikelihood 
得 到 假设 下 数据 的 似 然 度 。 


更 新 了 发 射 器 后 ， 我 们 也 必须 更 新 每 个 探测 器 。 
# class Detector 


def Update(self, data): 
thinkbayes.Suite.Update(self, data) 


for detector in self.Values(): 
detector .Update() 





像 这 样 有 多 层 Suite 对 象 的 模型 被 称 为 分 层 模型 。 


14.4 一 个 小 优化 


你 也 许 对 SuiteLikelihood 有 印象 ;我 们 在 第 110 页 “来 一 个 公平 
的 对 比 ”* 中 见 过 它 。 当 时 我 指出 我 们 并 不 真 的 需要 它 ， 因 为 
由 SuiteLikelihood 计算 的 总 概率 是 由 Update 计算 并 返回 的 归 一 化 季 
数 。 


所 以 ， 不 用 先 更 新 发 射 器 ， 再 更 新 探测 器 ， 我 们 其 实 可 以 同时 完成 
这 两 步 ， 使 用 从 Detector .Update 得 到 的 结果 作为 发 射 器 的 似 然 度 。 


下 面 是 Emitter.Likelihood 的 精简 版 : 








# class Emitter 


def Likelihood(self, data, hypo): 


return hypo.Update(data) 





以 这 个 版 本 的 Likelihood ， 我 们 就 可 以 使 用 Update 的 默认 版 
ee 而 且 因 为 它 不 用 计算 归 一 化 常量 两 次 ， 所 以 运行 
得 更 快 。 


14.5 抽取 后 验 


eG 
分 布 : 


# class Emitter 


def DistOfR(self): 
items = [(detector.r, prob) for detector, prob in self.Items()] 


return thinkbayes.MakePmfFromItems(items ) 





items 为 r 的 值 及 其 概率 的 列表 。 其 结果 是 r 的 Pmf。 

为 了 得 到 n 的 后 验 分 布 ， 我 们 必须 计算 出 探测 器 的 混合 分 布 。 我 们 
可 以 使 用 thinkbayes .MakeMixture ， 它 接收 映射 每 个 分 布 和 其 概率 
的 元 Pmf。 这 实际 上 也 就 是 友 射 器 : 
# class Emitter 


def DistOfN(self): 


return thinkbayes.MakeMixture(self) 





图 14-2 显 示 了 结果 。 训 不 奇怪 ，Pm 最 可 能 的 值 是 150。 己 知 f 和 n， 
则 预计 数 为 k= fn ， 所 以 给 定 f 和 k ，n 的 期 望 值 为 KMf。 也 就 是 150。 
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图 14-2 n 和 r 的 后 验 分 布 

如 果 150 个 粒子 在 1 秒 内 被 发 射 ，r 的 最 可 能 的 值 是 每 秒 150 个 粒子 。 
因此 r 的 后 验 分 布 也 集中 在 150 附 近 。 

r 的 后 验 分 布 和 n 是 相似 的 ; 唯一 的 区 别 是 ， 我 们 对 于 mn 稍 不 确定 。 
一 般 来 说， 我 们 对 于 较 长 时 间 范 围 的 发 射 率 r 更 确定 ， 但 对 于 任意 1 秒 内 
的 粒子 发 射 数量 mn 却 不 是 那么 确定 。 

你 可 以 从 http:Mthninkbayes.comyiaynes.py 下 载 本 章 代 码 。 更 多 信息 ， 
请 参见 前 言 的 “代码 指南 ”。 








14.6 讨论 


盖 革 计数 器 问题 表明 因果 关系 和 分 层 模 型 之 间 的 联系 。 在 该 示例 
中 ， 发 射 砍 上 对 粒子 数 n 有 因果 效应 ， 而 对 粒子 计数 量 Kk 有 因果 效应 。 


分 层 模型 反映 了 系统 的 结构 ， 在 顶部 产生 影响 ， 于 底部 得 到 效果 。 
1. 在 顶层， 我 们 以 ”的 一 系列 假设 值 开始 。 


2 对 每 一人 的 值 ， 我 们 有 一 个 n 的 信 的 范围 ， 这 取决 Jn 的 先 只 
p42 
刀 o 

3， 当 更 新 模型 时 ， 我 们 自 下 而 上 。 对 于 每 个 值 计算 n 的 后 验 分 
布 ， 然 后 计算 r 的 后 验 分 布 。 所 以 因果 信息 沿 着 层次 结构 由 上 至 下 ， 而 
推断 过 程 自 底 向 上 。 

















14.7 练习 

练习 14-1。 

这 项 工作 也 是 受到 杰 恩 斯 《概率 论 》 书 中 一 个 例子 的 启发 。 

假设 你 买 了 一 个 预期 能 降低 家 里 附近 蚊虫 数量 的 捕 蚊 器 。 每 周 你 都 
清空 这 个 陷阱 ， 计 算 抓 获 的 蚊虫 数量 。 第 一 个 星期 后 捉 到 30 只 蚊子 。 第 
二 个 星期 后 捉 到 20 只 蚊子 。 那 么 请 估计 你 的 院子 里 蚊子 数量 的 百分比 变 
化 。 


要 回答 这 个 问题 ， 必 须 做 出 一 些 建 模 的 决定 。 这 里 有 一 些 建议 如 
下 : 


。 假设 每 个 星期 有 大 量 蚁 子 N 在 你 家 附近 的 湿地 生存 。 
。 一 周 之 内 ,NN 中 一 部 分 f1 进入 你 的 院子 里 ，f 1 中 一 部 分 f, 沙 入 陷 














了 嘲 。 
。 在 你 的 方法 中 ， 要 考虑 到 “N 逐 周 可 能 的 变化 量 ? 的 先 验 观点 ， 可 以 
通过 在 分 层 模 型 中 增加 一 个 层次 来 对 N 变化 的 百分比 建 模 。 


第 15 章 ”处理 多 维 问 题 


15.1 脐 部 细 酚 


肚脐 生物 多 样 性 2.0 (BBB2) 项 目 是 一 个 全 国 性 的 民间 科学 项 目 ， 
则 在 识别 可 以 在 人 类 肚脐 上 找到 的 细 落 种 类 ( 
http:/bbdata.yourwildlife.org ) 。 该 项 目 似 乎 异想天开 ， 但 它 是 人 们 越 来 
越 关 注 人 体 微 生物 的 趋势 的 一 部 分 ， 人 体 微 生物 就 是 那些 生活 在 人 体 皮 
肤 与 身体 各 部 分 的 微生物 的 集合 。 


在 试验 性 研究 中 ，BBB2 研 究 人 员 收 集 了 60 名 志愿 者 脐 部 的 药 签 ， 
用 复 用 焦 磷酸 测序 法 提取 并 进行 16S rDNA 片段 的 测序 ， 然 后 确定 其 物 
种 基因 片段 的 来 源 。 每 一 个 识别 出 的 片段 被 称 为 “标记 样本 ”由 。 

我 们 可 以 利用 这 些 数据 来 回答 几 个 相关 问题 : 


基于 观 罕 到 的 物种 的 数量 ， 我 们 能 人 否 估算 在 环境 中 物种 的 总 数 ? 
ne 即 每 一 个 物种 占 总 体 的 分 


2 
各 案 我 们 计划 收集 额外 的 样本 ， 能 否 预 测 有 多 少 新 物种 可 能 会 被 友 
现 ? 


要 使 观察 到 的 物种 的 比例 增加 到 一 个 给 定 的 阔 值 ， 需 要 多 少 领 外 
的 “标记 样本 ”片段 ? 


这 些 问题 构成 了 所 谓 的 未 知 物种 问题 。 


15.2 狮子， 老虎 和 能 


我 将 从 这 个 问题 的 一 个 简化 版 本 开始 。 在 这 个 版 本 中 ， 我 们 已 知 物 
种 的 情况 ， 好 且 称 之 为 独子 、 老 虎 和 人 能。 假设 我 们 参观 野生 动物 保 扩 
区 ， 看 到 了 3 只 狮子 、2 只 老虎 和 1 头 熊 。 


如 果 我 们 在 保护 区 观察 到 任何 动物 物种 的 机 会 均等 ， 则 每 个 物种 的 
数量 由 多 项 分 布 决 定 。 假 设 狮 子 、 老 虎 和 能 的 种 群 比率 是 p_lion 
、pP_tiger 和 p_bear ， 看 到 3 只 狮子 ，2 只 老虎 和 1 头 能 的 可 能 性 就 是 


p_lion ** 3 * p tiger ** 2 * p bear ** 1 


一 种 诱 人 但 不 正确 的 方法 是 用 beta 分 布 〈( 见 32 页 的 “Beta 分 布 ") 来 
分 别 描述 每 个 物种 的 种 群 比例 。 例 如 ， 我 们 看 到 3 只 狮子 和 3 只 “ 非 狮 
子 ”; 如 果 我 们 将 其 视 作 3 个 “正面 ?和 3 个 “反面 > 的话， 那么 p_Lion 的 后 
验 分 布 就 是 : 























beta= thinkbayes.Beta () 
beta.Update ((3,3)) 
print beta.MaximumLikelihood () 





p_lion 的 最 大 似 然 估 计 就 是 观察 到 的 比例 50%。 同 样 ，p_tiger 
和 p_bear 的 最 大 极 大 似 然 估 计 为 33% 和 17%。 


但 这 里 有 两 个 问题 

1. 我 们 已 经 隐 合 地 为 每 个 物种 使 用 了 一 个 均匀 的 从 0 到 1 的 先 验 ， 
但 是 因为 我 们 知道 有 3 个 品种 ， 所 以 其 实 这 个 先 验 是 不 正确 的 。 正 确 的 
先 验 应 该 是 平均 值 为 3， 并 且 在 《其 他 的 ) 物种 具有 10096 的 种 群 比例 
时 似 然 度 应 该 为 零 。 


2. 每 个 物种 的 分 布 不 是 独立 的 ， 因 为 种 群 比例 总 和 为 1。 为 了 体现 


这 种 依赖 ， 我 们 需要 3 个 物种 种 群 比例 的 联合 分 布 。 


可 以 用 一 个 狄 利克 雷 解决 这 两 个 问题 〈 见 
http://en.wikipedia.org/wiki/Dirichlet_distribution ) 。 就 如 我 们 以 beta 分 布 
来 描述 不 均匀 人 硬币 的 分 布 一 样 ， 我 们 可 以 使 用 狄 利 元 雷 分 布 来 描述 
p_lion ，p_tiger 和 p_bear 的 联合 分 布 。 

狄 利 殉 雷 分 布 是 beta 分 布 的 多 维 通 用 版 本 。 与 正面 、 反 面 这 种 双 值 
I 狄 利 元 雷 分 布 能 处 理 任何 数量 的 结果 : 在 这 个 例子 中 ， 是 3 
| 


如 果 有 n 个 结果 ， 狄 利克 雷 分 布 是 由 n 个 参数 描述 的 ， 记 为 w 1 到 an 


thinkbayes .py 中 ， 有 一 个 定义 了 狄 氏 的 类 如 下 : 


class Dirichlet(object): 


def _ init (self, n): 
self.n = n 
self.params = numpy.ones(n, dtype=numpy.int) 





n 为 维 数 ， 最 初 的 参数 都 是 1， 我 用 numpy 数组 存储 参数 ， 这 样 我 
可 以 利用 数组 操作 的 优势 。 


给 定 一 个 狄 利 死 雷 分 布 ， 每 个 种 群 比例 的 边缘 分 布 是 一 个 beta 分 


布 ， 我 们 可 以 计算 如 下 : 


-> 


def MarginalBeta(self, i): 
alpha6 = self.params.sum() 
alpha = self.params[i] 


return Beta(alpha，alpha6-alpha) 





i 是 我 们 想 要 的 边缘 分 布 的 指数 。alpha8 是 参数 的 总 和 ; alpha 


是 对 于 给 定 物 种 的 参数 。 


在 该 示例 中 ， 每 个 物种 的 前 验 边 缘分 布 为 Beta(1，2) 。 我 们 可 以 
计算 平均 前 验 如 下 ， 


dirichlet = thinkbayes.Dirichlet(3) 
for i in range(3) : 
beta = dirichlet.MarginalBeta(i) 


print beta.Mean() 





正如 预期 的 那样 ， 每 个 物种 种 群 比例 的 前 验 均值 是 1/3。 
要 更 新 狄 利克 和 雷 分 布 ， 我 们 把 这 一 观察 结果 添加 a 到 参数 : 


def Update(self, data): 
m = len(data) 
self.params[:m] += 





这 里 data 是 和 params 顺序 一 致 的 一 个 计数 序列 ， 所 以 在 这 个 例子 
中 ， 它 应 该 是 狮子 、 老 虎 和 能 的 数量 。 


data 可 以 比 params 短 ; 在 这 种 情况 下 ， 意 味 着 有 一 些 物 种 没有 被 
观察 到 。 


下 面 是 以 观察 到 的 数据 更 新 dirichlet 并 计算 后 验 边缘 分 布 的 代 














但 。 





data = [3，2，1] 
dirichlet.Update(data) 


for i in range(3): 
beta = dirichlet.MarginalBeta(i) 
pmf = beta.Makepmf() 
print i, pmf.Mean() 





图 15-1 显 示 了 结果 。 平 均 种 群 比例 的 后 验 是 44%、33% 和 22%。 





种 群 密度 
图 15-1 三 个 物种 种 群 比例 的 分 布 


15.3 ”分 层 版 本 


我 们 已 经 解决 了 这 个 问题 的 一 个 简化 版 本 : 如 果 我 们 知道 有 多 少 物 
种 ， 我 们 可 以 估算 每 一 个 的 种 群 比例 。 

现在 让 我 们 回 到 原来 的 问题 ， 估 计 物 种 的 总 数 。 要 解决 这 个 问题 ， 
我 会 定义 一 个 元 Suite 对 象 ， 它 是 一 个 包含 其 他 Suite 对 象 作为 假设 的 Suite 
对 象 。 在 这 个 例子 里 ， 最 上 层 的 Suite 对 象 包含 物种 数量 的 假设 ， 底 层 包 
含 种 群 比例 的 假设 。 

类 定义 如 下 : 


class Species(thinkbayes.Suite) : 


def _ init (self, ns): 
hypos = [thinkbayes.Dirichlet(n) for n in ns] 


thinkbayes.Suite. init (self, hypos) 





_ init_ _ 取 为 n 的 可 能 值 的 列表 ， 并 创建 一 个 狄 利克 雷 对 象 的 列 
下 面 是 创建 顶层 Suite 对 象 的 代码 : 


ns = range(3, 30) 
suite = Species(ns) 








ns 是 n 的 可 能 值 的 列表 。 由 于 已 经 看 到 3 个 物种 ， 所 以 必须 为 至 少 3 
个 。 我 选择 了 一 个 似乎 合理 的 上 限 ， 稍 后 会 检查 得 知 超过 这 个 界限 的 概 
2 
能 的 。 


要 更 新 一 个 分 层 模 型 ， 你 必须 更 新 所 有 层次 。 通 常 必须 先 更 新 底层 


再 同上 更 新 ， 但 在 本 例 中 ， 我 们 可 以 先 更 新 顶层 : 


#class Species 


def Update(self, data): 
thinkbayes.Suite.Update(self, data) 


for hypo in self.Values(): 
hypo.Update(data) 





Species.Update 调用 父 类 中 的 Update ， 然 后 遍历 子 假设 并 更 新 
它们 。 
现在 ,我 们 需要 一 个 似 然 函 数 : 
# class Species 
def Likelihood(self, data, hypo): 
dirichlet = hypo 


like = 6 
for i in Fange(1660) : 


like += dirichlet.Likelihood(data) 


return like 





data 是 观察 到 的 计数 序列 ;hypo 是 一 个 狄 利克 雷 对 
象 。Species .Likelihood 调用 Dirichlet.Likelihood 共 1000 次 然 
后 返回 总 和 。 

为 什么 调用 1000 次 ? 因为 Dirichlet.Likelihood 实际 上 并 不 计 
算数 据 在 整个 狄 利克 雷 分 布 上 的 似 然 度 。 相 反 ， 它 从 假设 的 分 布 中 取得 
一 个 样本 然后 计算 数据 在 这 个 种 群 比例 样本 集 下 的 似 然 度 。 


下 面 是 实例 : 


# class Dirichlet 





def Likelihood(self, data): 
m = len(data) 
if self.n < m: 


return 6 
x = data 
p = self.Random() 
q = p[:m]**x 


return q.prod() 





data 的 长 度 是 观察 到 的 物种 的 数量 。 如 果 看 到 的 物种 比 我 们 预计 
存在 的 多 ， 似 然 度 就 是 0。 


否则 ， 我 们 随机 选择 一 组 种 群 比例 p ， 再 计算 多 项 式 Pmf， 也 就 


fi 


了 


工 Ln 
crp1 。 “0 


Pi 为 第 i 个 物种 的 种 群 比例 ，x ; 是 所 观察 到 的 数量 。 第 一 项 c , 是 多 
项 式 系数 ; 我 将 其 放置 在 在 计算 之 外 ， 因 为 它 仅 依赖 于 数据 的 乘法 因子 
而 不 是 假设 ， 所 以 它 被 归 一 化 了 ( 见 
http://en.wikipedia.org/wiki/Multinomial_distribution ) 。 


m 是 观察 到 的 物种 的 数量 。 我 们 只 需要 p 的 前 m 个 元 素 。 人 至 于 其 他 
的 部 分 : xi 为 0， 所 以 Pi 为 1， 我 们 可 以 在 结果 中 单列 。 


15.4 随机 抽样 


有 两 种 方法 可 以 从 狄 利克 雷 分 布 产 生 随 机 样本 。 一 个 是 使 用 边缘 
beta 分 布 ， 但 在 这 种 情况 下 ， 你 必须 一 次 选取 一 个 值 再 扩展 到 余下 的 
值 ， 使 得 它们 累加 和 为 1〈 参 见 
http://en.wikipedia.org/wiki/Dirichlet_distribution#Random_number_generati 


为 一 个 没 那 么 明显 但 速度 更 快 的 方法 是 从 n 个 伽 玛 〈gamma) 分 布 
中 选取 值 ， 然 后 通过 除 以 总 和 来 归 一 化 。 下 面 是 代码 : 


# class Dirichlet 


def Random(self): 
p = numpy.random.gamma(self.params ) 


return p / p.sum() 





现在 ， 我 们 准备 好 但 看 结果 了 。 下 面 是 提取 n 的 后 验 分 布 的 代码 : 


def DistOfN(self): 
pmf = thinkbayes .Pmf() 
for hypo, prob in self.Items(): 
pmf.Set(hypo.n, prob) 


return pmf 





DistOfN 通过 在 顶层 假设 中 迭代 ， 并 且 累 加 每 个 n 的 概率 。 


图 15-2 显 示 了 结果 。 最 可 能 的 值 是 4，3 到 7 之 间 的 值 也 很 有 可 能 ; 
之 后 的 概率 就 迅速 下 降 了 。 有 29 个 物种 的 概率 低 到 足以 忽略 不 计 ， 如果 
我 们 选择 了 一 个 更 高 的 上 界 ， 也 会 得 到 相当 一 致 的 结果 。 
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图 15-2 n 的 后 验 分 布 


请 记 住 ， 这 个 结果 基于 n 的 先 验 是 均匀 分 布 的 。 如 果 我 们 知道 物种 
在 环境 中 数量 的 背景 信息 ， 我 们 可 以 选择 一 个 不 同 的 先 验 。 


15.5 ”优化 


单 ， 


必须 承认 ， 我 对 于 这 个 例子 中 的 解法 很 自 肾 。 未 知 物种 问题 并 不 入 
而 这 个 解法 简单 明了 ， 只 用 了 少 的 难以 置信 代码 〈 约 50 行 ) 。 


它 唯 一 的 问题 是 计算 慢 。 对 于 只 有 3 个 观察 物种 的 例子 它 足 够 好 ， 








但 对 于 肚脐 问题 的 数据 就 不 够 好 了 





这 类 数据 的 采样 中 有 超过 100 个 


物种 。 


接 下 来 的 几 市 介绍 了 一 系列 扩展 这 个 解法 的 优化 方法 。 在 深入 到 细 


节 里 面前 ， 路 线 图 如 下 。 





第 一 步 是 要 认识 到 ， 如 果 我 们 以 同样 的 数据 更 新 狄 利克 雷 分 布 ， 对 
于 所 有 的 值 ， 前 m 个 的 参数 都 是 相同 的 。 唯 一 的 区 别 是 假设 的 未 知 
物种 数量 。 因 此 ， 我 们 并 不 真正 需要 n 个 狄 利克 雷 对 象 ， 我 们 可 以 
在 层次 结构 上 存储 最 上 层 的 参数 。Species2 实现 了 这 个 优化 。 
Species2 也 对 所 有 假设 使 用 了 相同 的 一 组 随机 值 。 这 节省 了 生成 
随机 值 的 时 间 ， 但 它 还 有 更 重要 的 第 二 个 好 处 : 通过 从 样品 空间 给 
所 有 的 假设 赋予 相同 的 选取 值 ， 使 得 在 假设 之 间 的 比较 更 加 公平 ， 
所 以 它 只 需 较 少 的 迭代 次 数 就 能 收敛 。 

即使 有 了 这 些 改动 ， 还 有 一 个 重大 的 性 能 问题 。 随 着 观察 到 的 物种 
的 增加 ， 随 机 种 群 比例 的 数组 也 变 大 了 ， 而 选取 到 一 个 近似 正确 的 
值 的 几率 就 变 小 了 。 所 以 绝 大 多 数 迭 代 次 数 得 到 的 似 然 度 很 小 ， 以 
致 对 总 和 产生 的 贡献 不 多 ， 也 就 没有 在 假设 之 间 产 生 区 别 。 


解决 方法 是 每 次 只 更 新 一 个 物种 ，Species4 是 使 用 狄 利克 雷 
对 象 来 表示 子 假设 这 一 策略 的 一 个 简单 实现 。 


最 后 ， 在 模型 顶层 Species5 结合 子 假设 ， 并 使 用 numpy 数组 运算 
以 加 快速 度 。 


如 果 你 对 细节 不 感 兴 趣 ， 可 以 跳 到 156 页 的 “肚脐 数据 ”， 在 那儿 碍 











看 来 和 目 肚脐 数据 的 结果 。 





15.6” 扒 琶 的 层次 结构 


所 有 底层 的 狄 利 元 雷 分 布 以 相同 的 数据 更 新 ， 所 以 对 它们 来 说 ， 
前 m 个 参数 相同 。 我 们 可 以 通过 将 参数 合并 入 顶层 Suite 对 象 来 消除 这 一 
重复 过 程 。Species2 实现 了 这 一 优化 : 


class Species2(object): 


def init (self, ns): 
self.ns = ns 
self.probs = numpy.ones(len(ns), dtype=numpy .double) 
self.params = numpy.ones(self.high, dtype=numpy.int) 





ns 是 n 假设 值 的 一 个 列表 ; probs 是 相应 概率 的 列表 。 而 params 
是 狄 氏 参数 的 顺序 ， 初 始 所 有 的 参数 都 为 1。 


Species2.Update 更 新 这 一 分 层 〈 模 型 ) 的 两 个 层次 。 第 一 层次 
是 n 的 每 个 可 能 值 的 概率 ， 下 一 层次 是 狄 利克 雷 参数 : 





# class Species2 


def Update(self, data): 
like = numpy.zeros(len(self.ns), dtype=numpy.double) 
for i in range(1666) : 
like += self.SampleLikelihood(data) 


self.probs *= like 
self.probs /= self.probs.sum() 


m = len(data) 
self.params[:m] += data 





SampleLikelihood 返回 似 然 度 的 一 个 数组 ， 每 一 个 似 然 度 值 对 应 
于 n 的 每 个 可 能 值 。Like 累加 1000 个 样本 总 的 似 然 度 。self.probs 乘 


以 总 似 然 度 ， 然 后 归 一 化 。 节 后 两 行 更 新 参数 ， 和 Dirichlet.Update 
一 样 。 


现在 ， 让 我 们 来 看 看 SampleLikelihood ， 这 里 有 两 个 可 优化 的 地 
2 


。 当 物 种 的 假想 数 n 超过 所 观察 到 的 数目 m ， 我 们 只 需要 多 项 式 PMF 
的 前 m 个 项 ， 其 余 均 为 1。 

。 如 采 物 种 的 数量 很 大 ， 访 数据 的 似 然 度 用 序 点 数 来 表示 可 能 太 小 
(请 参阅 99 页 的 “数据 下 滋 >) 。 因 此 ， 计算 对 数 似 然 度 要 更 安全 。 


同样 ， 该 多 项 式 的 PMF 是 


工 In 
cpl n Pn 





所 以 对 数 似 然 度 是 


log cz 十 TllogPpl 十 … 十 Znlogpn 


它 更 快速 且 容 易 计 算 。 同 样 ，cx 对 所 有 假设 是 相同 的 ， 所 以 我 们 可 
以 放 在 一 边 先 不 管 它 。 下 面 是 代码 : 








# class Species2 


def SampleLikelihood(self, data): 
gammas = numpy.random.gamma(self.params) 
m = len(data) 
row = gammas[:m] 
col = numpy.cumsum(gammas) 


log likes = [|] 
for n in self.ns: 
ps = row / col[n-1] 
terms = data * numpy.log(ps) 
log like = terms.sum() 
log likes.append(log like) 


log likes -= numpy.max(log_ likes) 
likes = numpy.exp(log likes) 


coefs = [thinkbayes.BinomialCoef(n, m) for n in self.ns] 
likes *= coefs 


return likes 


gammas 是 一 个 伽 玛 分 布 值 构 成 的 数组 ， 它 的 长 度 是 n 假设 值 的 最 
大 值 。row 是 gammas 的 前 m 个 元 素 ， 因 为 这 些 参 数 仅 依赖 于 数据 本 
身 ， 所 以 这 些 就 是 我 们 需要 的 全 部 参数 了 。 


对 于 n 的 每 个 值 ， 我 们 需要 将 row 除 以 gamma 中 前 n 项 值 的 总 
和 ，cumsum 计算 这 些 累积 值 ， 并 将 它们 存储 在 col 中 。 


loop 循 环 夫 代 n 的 这 些 值 ， 再 累加 a 到 一 个 对 数 似 然 值 的 列表 。 


在 循环 内 部 ，ps 包含 概率 的 行 数 ， 以 对 应 的 累计 总 和 进行 归 
一 。terms 包含 和 的 各 项 ，zrilog 产 ，1og_1like 包含 它们 的 和 。 


循环 结束 后 ， 我 们 要 将 对 数 似 然 度 转化 为 线性 似 然 度 ， 但 最 好 是 先 
进行 转 置 使 得 最 大 的 对 数 似 然 度 为 0， 这 样 的 话 ， 线 性 似 然 度 就 不 会 显 
得 太 小 《请 参阅 “数据 下 游 ?99 页 ) 。 


最 后 ， 在 返回 似 然 度 前 ， 我 们 必须 应 用 一 个 修正 系数 (因子) ， 它 
征 我 们 可 以 观 罕 到 m 个 物种 的 可 能 方法 的 数量 ， 同 时 假设 物种 的 总 数 
为 n 。BinomialCoefficient 计算 这 个 “nm 选 m ”过 程 ， 写 为 (mJ) 。 


正如 第 见 的 那样 ， 优 化 的 版 本 可 读 性 莽 ， 也 比 原 始 版 本 更 容易 出 
错 。 但 这 束 是 我 从 简单 版 本 开始 的 一 个 原因 ， 我 们 可 以 用 它 进 行 回 归 测 
试 。 我 绘制 了 从 两 个 版 本 得 到 的 结果 值 ， 可 以 确认 它们 是 大 致 相等 的 ， 
并 且 随 着 达 代 次 数 增加 它们 都 是 收敛 的 。 











15.7 “ 另 一 个 问题 


我 们 还 可 以 做 得 更 多 来 优化 这 一 代码 ， 但 有 为 外 一 个 需要 首先 处 理 
的 问题 。 随 着 观察 到 的 物种 数目 的 增加 ， 这 个 版 本 的 解法 变 得 让 人 心 
烦 ， 筷 需要 更 多 的 迭代 才能 收敛 到 一 个 好 的 结 


但 问题 是 ， 如 果 我 们 从 狐 利 克 雷 分 布 中 选择 的 种 群 比例 ps 并 不 是 
近似 正确 的 ， 所 观察 到 的 数据 的 似 然 度 就 会 接近 零 ， 而 对 于 n 的 所 有 值 
几乎 束 是 错 的 。 那 么 大 多 数 和 迭代 就 不 能 为 总 体 可 能 性 提供 有 用 的 页 献 。 
ah 的 数量 m 变 大 ， 以 确切 可 能 性 选取 ps 的 概率 就 会 变 
小 ， 它 真是 相当 小 。 


笠 运 的 是 ， 有 一 个 解决 办 法 。 如 果 你 观察 一 组 数据 ， 你 可 以 就 整个 
数据 集 更 新 和 完 验 分 布 ， 或 者 把 它 分 解 成 一 系列 所 述 数据 的 子 集 再 逐一 更 
新 ， 并 且 这 两 种 方式 更 新 的 结果 都 是 相同 的 。 

在 这 个 例子 中 ， 关 键 是 每 次 更 新 是 针对 一 个 物种 。 这 样 ， 当 我 们 生 
成 一 组 随机 的 ps 时 ， 只 有 其 中 一 个 会 影响 到 计算 得 到 的 似 然 度 ， 因 此 
选择 一 个 正确 对 象 的 概率 要 好 得 多 。 


下 面 是 每 次 更 新 一 个 物种 的 新 版 本 : 

















class Species4(Species): 


def Update(self, data): 
m = len(data) 


for i in range(m): 


one = numpy .zeros(i+1) 
one[i] = data[i] 
Species.Update(self, one) 





该 版 本 从 Species 继承 init  ， 所 以 它 以 一 个 狄 利克 雷 对 象 的 
列表 来 表示 假设 (和 Species2 中 不 同 ) 。 


Update 过 历 观 察 到 的 物种 ， 创 建 一 个 数组 one ， 它 包含 某 一 个 物 


种 的 计数 ， 都 匈 预 置 为 零 。 然 后 调用 父 类 的 Update ， 计 算 似 然 度 并 更 
新 子 假设 。 


因此 ， 在 这 个 例子 里 ， 我 们 做 三 次 更 新 。 第 一 个 有 扣 像 “看 到 了 三 
只 狮子 "。 第 二 个 是 “看 到 了 两 只 老虎 ， 没 有 看 到 更 多 的 狮子 *。 第 三 个 
古 “ 看 到 一 头 熊 ， 没 有 看 到 更 多 狮子 和 老虎 ”。 


下 面 是 似 然 度 的 新 版 本 : 
# class Species4 


def Likelihood(self, data, hypo): 
dirichlet = hypo 
like = 6 
for i in range(self.iterations ) : 
like += dirichlet.Likelihood(data) 


# correct for the number of unseen species the new one 


# could have been 

m = len(data) 

num_ unseen = dirichlet.n - 
like *= num unseen 


return like 





这 和 Species.Likelihood 几乎 相同 ， 所 不 同 的 是 因 
子 num_unseen 。 这 种 校正 是 必要 的 ， 因 为 每 当 我 们 首次 看 到 某 一 个 物 
种 ， 我 们 都 要 考虑 到 有 其 他 的 一 些 我 们 本 应 看 到 的 未 见 物种 。 对 于 较 大 
人 的 未 见 物种 ， 这 一 因素 增加 了 数据 的 似 





必须 承认 这 起 一 个 我 最 开始 并 没有 搞 清楚 的 微妙 之 处 ， 但 摘 清 楚 
后 ， 紧 接着 我 就 能 够 通过 比较 以 前 的 版 本 来 验证 它 〈 该 版 本 ) 了 。 





15.8 ”还 有 工作 要 做 


每 次 执行 一 个 物种 的 更 新 解决 了 一 个 问题 ， 但 它 也 带 来 了 另 一 个 问 
题 。 每 次 更 新 需要 的 时 间 正 比 于 km ， 其 中 k 是 假设 的 数目 ，m 是 观察 到 
的 物种 的 数量 。 因 此 ， 如 果 我 们 做 m 次 更 新 ， 总 运行 时 间 正 比 于 km “。 


但 是 ， 我 们 可 以 利用 151 页 “ 堆 又 的 层次 结构 ”中 同样 的 诀 穿 加 快速 
度 : 我 们 将 摆脱 狄 利 克 雷 对 象 ， 将 分 层 结构 中 的 两 个 层次 折 闭 到 一 个 单 
一 的 对 象 。 所 以 下 面 是 Species 的 另 一 个 版 本 : 




















class Species5(Species2) : 


def Update(self, data): 
m = len(data) 
for i in range(m): 
self.UpdateOne(i+1, data[i]) 
self.params[i] += data[i] 





该 版 本 从 Species2 继承 init  ， 所 以 它 使 用 ns 和 probs 表示 n 
的 分 布 ， 而 params 表示 狄 利 元 雷 分 布 的 参数 。 


Update 类 似 于 我 们 在 上 一 节 中 看 到 的 。 它 过 历 观察 到 的 物种 再 调 
用 UpdateOne: 





# class Species5 


def UpdateOne(self, i, count): 
likes = numpy.zeros(len(self.ns), dtype=numpy .double) 
for i in range(self.iterations ) : 
likes += self.SampleLikelihood(i, count) 


unseen species = [n-i+l for n in self.ns] 
likes *= unseen species 


self.probs *= likes 
self.probs /= self.probs.sum() 


| | 
此 函数 类 似 于 Species2.Update ， 但 有 两 个 变化 。 


。 接口 是 不 同 的 。 我 们 得 到 的 不 是 整个 数据 集 ， 而 是 观察 到 的 物种 的 
索引 i 和 已 经 看 到 的 物种 数量 count 。 

。 我 们 要 在 未 见 物种 的 数量 上 应 用 一 个 修正 系数 ， 如 
Spcies4.Likelihood 所 示 。 这 里 的 不 同 之 处 在 于 我 们 以 数组 的 乘 
法 即时 更 新 全 部 似 然 度 。 


最 后 ，SampleLikelihood 如 下 : 


# class Species5 


def SampleLikelihood(self, i, count): 
gammas = numpy.random.gamma(self.params ) 


sums = numpy.cumsum(gammas)[self.ns[6]-1:] 


ps = gammas[i-1] / sums 
log likes = numpy.log(ps) * count 


log likes -= numpy.max(log_ likes) 
likes = numpy.exp(log likes) 


return likes 





这 类 似 于 Species2.SampleLikelihood ; 不 同 的 是 ， 每 一 次 更 新 
只 包括 单一 物种 ， 所 以 并 不 需要 一 个 循环 。 


这 个 函数 的 运行 时 间 正 比 于 假设 数量 K 。 它 运行 m 次 ， 因 此 更 新 的 
人 所 以 我 们 得 到 一 个 准确 结果 需要 的 迭代 次 数 通 
常 也 就 少 了 。 








15.9 肚脐 数据 


关于 狮子 、 老 虎 和 能 的 问题 讨论 得 已 经 足够 了 。 现 在 让 我 们 回 到 肚 
及 问题 。 为 了 得 到 数据 的 含义 ， 考 虑 B1242 课 题 ， 其 400 个 标记 样本 产生 
了 如 下 计数 的 61 个 物种 : 








有 少数 几 个 优势 物种 构成 了 整体 的 很 大 一 部 分 ， 而 很 多 其 他 物种 只 
产生 一 个 单一 的 样本 标记 。 这 些 “ 单 身 ?” 的 数目 表明 了 没 观 宗 到 的 物种 可 


能 至 少 有 那么 几 个 。 


狮子 和 老虎 的 例子 中 ， 我 们 假设 在 保护 区 里 每 种 动物 被 观测 到 的 可 
能 性 是 相等 的 。 类 似 地 ， 对 于 肚脐 问题 的 数据 ， 我 们 假设 每 种 细菌 被 标 
记 到 的 可 能 也 是 相等 的 。 


在 现实 中 ， 数 据 收集 过 程 中 每 个 步 又 都 可 能 引入 偏差 。 有 些 物 种 伞 
拭 子 拾 起 的 可 能 性 大 些 ， 或 容易 产生 可 供 识 别 的 扩 增 子 〈 生 物 遗 传 学 名 
词 : 聚合 酶 链 式 反应 获得 的 双 链 核 萌 酸 产 物 ) 。 所 以 当 我 们 谈 到 每 一 个 
物种 的 种 群 比例 时 ， 我 们 应 当 要 考虑 到 这 种 误 关 的 来 源 。 


还 要 承认 ， 我 不 太 严 格 地 使 用 了 术语 “物种 *"。 首 先 ， 细 落 物 种 没有 
得 到 很 好 的 限定 。 其 次 ， 有 的 样本 标记 能 够 识别 特定 的 物种 ， 其 他 的 则 
只 能 识别 一 个 属 。 更 准确 地 ， 我 应 该 说 “操作 分 类 单位 ”， 或 简写 为 


OTU (operational taxonomic unit) 。 


现在 ， 让 我 们 来 处 理 一 些 肚脐 数据 。 我 定义 了 一 个 Subject 类 表示 
研究 中 每 个 相关 课题 的 信息 : 

















class Subject(object): 


def _ init (self, code): 


self.code = code 
self.species = [|] 





每 个 课题 都 有 一 个 字符 编码 ， 比 如 “B1242”， 还 有 计数 ， 种 名 ) 
对 的 列表 ， 按 计数 递增 的 顺序 存放 。Ssubject 提供 了 几 个 方法 ， 可 以 很 
容易 地 得 到 这 些 计 数 和 物种 的 名 称 。 你 可 以 从 
http:/thinkbayes.com/species.py 了 解 细 节 。 更 多 信息 ， 请 参见 前 言 的 “ 代 
码 指南 ”。 


Subject 提供 了 名 为 Process 的 方法 来 创建 和 更 新 一 个 Species5 
的 Suite 对 象 ， 它 代表 n 的 分 布 和 种 群 比例 。 


Suite2 提供 了 DistofN 方法 ， 它 返回 n 的 后 验 分 布 。 





# class Suite2 


def DistN(self): 
items = zip(self.ns, self.probs) 


pmf = thinkbayes.MakePmfFromItems(items ) 
return pmf 





图 15-3 显 示 了 课题 B1242 中 m 的 分 布 。 刚 好 有 61 个 物种 ， 即 没有 未 
见 物种 的 概率 几乎 为 零 。 物 种 数量 最 可 能 的 值 是 72，90% 置 信 区 间 处 在 
66 到 79 之 间 。 从 横 坐 标的 高 值 部 分 来 看 ， 有 87 个 物种 的 可 能 性 很 小 。 
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图 15-3 ”课题 B1242 中 n 的 分 布 


接 下 来 我 们 计算 每 个 物种 种 群 比例 的 后 验 分 布 。Species2 提供 了 


DistofPrevalence : 





# class Species2 


def DistOfPrevalence(self, index): 
metapmf = thinkbayes .Pmf() 


for n, prob in zip(self.ns, self.probs): 
beta = self.MarginalBeta(n, index) 
pmf = beta.MakePmf() 
metapmf.Set(pmf, prob) 


mix = thinkbayes .MakeMixture(metapmf) 
return metapmf, mix 


index 显示 了 我 们 想 要 计算 的 物种 。 对 于 每 个 n ， 种 群 比例 的 后 验 
分 布 不 同 。 


循环 迭代 n 的 可 能 值 及 其 概率 。 由 n 的 每 一 个 值得 到 表示 所 指 物种 
边缘 分 布 的 一 个 Beta 对 象 。 别 忘 了 Beta 对 象 包含 有 参数 alpha 和 beta ; 
它们 不 像 Pmf 对 象 那样 有 值 和 其 概率 对 ， 但 它们 提供 MakePmf ， 生 成 近 
似 于 连续 Beta 分 布 的 离散 值 。 


metapmf 是 一 个 在 已 知 n 的 条 件 下 ， 包 含 种 群 比 例 分 布 的 元 
Pmf。MakeMixture 将 元 Pmf 结 合 到 mix ，mix 结合 条 件 分 布 到 一 个 单 
一 的 种 群 比例 分 布 。 

图 15-4 显 示 了 前 五 个 最 大 物种 的 结果 。 这 些 最 常见 的 物种 占 到 了 
400 个 标记 样本 中 的 23%， 但 由 于 肯定 存在 未 见 物 种 ， 因 此 其 种 群 比例 
最 有 可 能 的 估计 为 20%，90% 的 置信 区 间 是 17% 一 239%。 
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图 15-4 ”B1242 种 群 比例 的 分 布 





15.10 ”预测 分 布 


在 4 个 相关 问题 中 ， 我 介绍 了 隐藏 物种 的 问题 。 通 过 计算 n 和 每 个 
物种 种 群 比例 的 后 验 分 布 ， 我 们 已 经 回答 了 前 两 个 。 


另外 两 个 问题 是 : 
| 
， 


。 需 要 增加 多 少 额 外 标记 样本 ， 才 能 提高 观察 到 物种 的 比例 到 一 个 给 
定 的 立 值 ? 


要 回答 类 似 这 样 的 预测 问题 ， 我 们 可 以 使 用 后 验 分 布 来 模拟 可 能 的 
未 来 事件 ， 并 计算 可 能 看 到 的 物种 数量 预测 的 分 布 ， 以 及 总 数 占 比 。 


这 些 模拟 过 程 的 核心 是 : 
1. 从 后 验 分 布 选取 n 值 ; 


2， 为 每 一 个 物种 选取 其 种 群 比例 ， 包 括 可 能 的 未 见 物种 ， 使 用 儿 
利克 雷 分 布 ; 


3. 生成 未 来 观测 值 的 随机 序列 ; 
4. 计算 新 物种 的 数量 ，num_new ， 作 为 额外 样本 数 k 的 函数 ; 
5. 重复 前 面 的 步骤 ， 累 加 num_new 和 k 的 联合 分 


下 面 的 代码 RunSimulation 运行 了 一 个 单 次 模拟 : 














# class Subject 


def RunSimulation(self, num _ reads): 
m, seen = self.GetSeenSpecies() 
n, observations = self.GenerateObservations(num reads) 


curve = [] 
for k, obs in enumerate(observations ) : 
seen.add(obs) 


num_new = len(seen) - m 
curve.append((k+1，num_new) ) 


return curve 





num_reads 是 要 模拟 的 额外 的 样本 数 。m 是 可 见 物种 的 数目 ， 
而 seen 是 每 个 物种 唯一 名 称 的 字符 串 集 合 。n 是 一 个 从 后 验 分 布 选 取 
的 随机 值 ，observations 是 物种 名 字 的 一 个 随机 序列 。 


每 经 过 一 次 循环 ， 我 们 在 seen 中 加 入 得 到 的 新 的 观 凤 结 果 ， 并 记 
录 样 本 数 和 目前 新 物种 的 数量 。 


RunSimulation 的 结果 是 一 个 稀 朴 曲线 ， 表 示 为 样本 数 和 新 物种 
数目 对 的 一 个 列表 。 


检查 结果 前 ， 我 们 来 看 看 GetSeenSpecies 和 


GenerateObservations 。 


#class Subject 


def GetSeenSpecies(self): 
names = self.GetNames() 
m = len(names) 
seen = set(SpeciesGenerator(names, m)) 
return m, seen 








GetNames 在 数据 文件 中 的 返回 物种 名 称 的 列表 ， 但 对 于 许多 课 
题 ， 这 些 名 称 不 是 唯一 的 ， 所 以 我 通过 SpeciesGenerator 用 序列 号 来 
扩展 每 个 名 称 : 





def SpeciesGenerator(names, num): 
i=0 
for name in names: 
yield '%s-%d' % (name, i) 
i += 1 


while i < num: 
yield “unseen-%d ' % i 
i += 1 





己 知 一 个 命名 Corynebacterium ，SpeciesGenerator 将 产 
生 “Corynebacterium-1 ”这 样 的 名 字 。 当 名 称 列 表 耗 尽 时 ， 将 产生 如 
unseen-62 这 样 的 命名 。 


GenerateObservations 如 下 : 


# class Subject 


def GenerateObservations(self, num reads): 
n, prevalences = self.suite.SamplePosterior() 


names = self.GetNames() 
name_iter = SpeciesGenerator(names, nN) 


d = dict(zip(name iter, prevalences)) 
cdf = thinkbayes.MakeCdfFromDict(d) 
observations = cdf.Sample(num reads) 
return n, observations 





同样 的 ，num_reads 是 要 生成 的 额外 样本 数 。n 和 prevalences 
是 后 验 分 布 的 样本 。 


cdf 是 一 个 映射 物种 名 到 累积 概率 的 Cdf 对 象 ， 包 括 未 见 物种 ， 采 
用 Cdf 使 产生 物种 名 称 的 随机 序列 过 程 变 得 高 效 。 


最 后 ，Species2.SamplePosterior 如 下 : 





def SamplePosterior(self): 
pmf = self.DistOfN() 
n = pmf.Random() 
prevalences = self.SamplePrevalence(n) 
return n, prevalances 


| 


SamplePrevalences 生成 种 群 比例 在 条 件 为 n 时 的 样本 : 


# class Species2 


def SamplePrevalences(self, n): 
params = self.params[:n] 
gammas = numpy.random.gamma(params) 


gammas /= gammas.sum() 
return gammas 





我 们 会 看 到 这 个 算法 从 狄 利 元 雷 分 布 产 生 随机 值 〈( 如 第 149 页 “随机 
抽样 ?所 述 的 ) 。 


图 15-5 显 示 了 B1242 课 题 的 100 个 模拟 的 稀 朴 曲线 。 该 曲线 显得 “ 持 
动 ”* 是 因为 我 为 每 条 曲线 加 了 一 个 随机 偏 移 量 ， 使 得 它们 不 会 重 夺 在 一 
起 。 通 过 观察 ， 我 们 可 以 估算 出 400 个 额外 的 标记 样本 后 ， 我 们 很 可 能 
会 发 现 2 一 6 个 新 的 物种 。 
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图 15-5 ”B1242 课 题 的 模拟 稀疏 曲线 


15.11 联合 后 验 


我 们 可 以 利用 这 些 模拟 来 估计 num_new 和 k 的 联合 分 布 ， 由 此 ， 我 
们 还 可 以 得 到 num_new 在 k 为 任意 值 条 件 下 的 分 布 。 


def MakeJointPredictive(curves ) : 
joint = thinkbayes.Joint() 
for curve in curves: 
for k, num new in curve: 
joint.Incr((k, num_new)) 


joint.Normalize() 
return joint 





MakeJointPredictive 创建 一 个 Joint 对 象 ， 它 是 一 个 以 元 组 为 值 
的 Pmf 对 象 。 


curves 是 一 个 RunSimulation 创建 的 稀疏 曲线 的 列表 。 每 条 曲线 
包含 k 和 num_new 对 的 列表 。 


由 此 产生 的 联合 分 布 是 从 每 个 数值 到 其 发 生 概率 的 一 个 映射 关系 。 
给 定 联合 分 布 ， 我 们 可 以 通过 Joint .Conditional 得 到 num_new 以 k 
为 条 件 下 的 分 布 〈“ 见 “条 件 分 布 ” 第 90 页 ) 。 


Subject.MakeConditionals 接收 一 个 ks 的 列表 ， 并 计算 
num_new 对 每 个 k 的 条 件 分 布 。 其 结果 是 一 个 Cdf 对 象 构成 的 列表 。 





def MakeConditionals(curves, ks): 
joint = MakeJointPredictive(curves ) 


cdfs = [] 

for k in ks: 
pmf = joint.Conditional(1, 606, k) 
pmf.name = 'k=%d' % k 
cdf = pmf.MakeCdf() 
cdfs.append(cdf) 


return cdfs 


图 15-6 显 示 了 结果 。100 个 额外 的 标记 样本 后 ， 预 测 的 新 物种 的 数 
量 中 值 为 2，90% 置 信 区 间 为 0 到 5。800 个 标记 样本 后 ， 我 们 有 望 看 到 3 
到 12 个 新 的 物种 。 
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图 15-6 在 不 同 数量 的 额外 标记 样本 条 件 下 ， 新 发 现 物种 数量 的 分 布 





15.12 ” 罗 疼 


我 们 要 回答 最 后 一 个 问题 : “需要 增加 多 少 额外 的 标记 样本 ， 才 能 
把 观察 到 物种 比例 提高 到 一 个 给 定 的 浆 值 >? 
要 回答 这 个 问题 ， 我 们 需要 RunSsimulation 的 一 个 能 计算 已 观测 


物种 的 分 数 比 例 的 版 本 ， 而 不 是 新 物种 数量 的 版 本 。 





# class Subject 


def RunSimulation(self, num_ reads): 
m, seen = self.GetSeenSpecies() 
n, observations = self.GenerateObservations(num reads) 


curve = [] 
for k, obs in enumerate(observations): 
seen.add(obs) 


frac_seen = len(seen) / float(n) 
curve.append((k+1, frac_ seen)) 


return curve 





接 下 来 ， 循 环 每 一 条 曲线 并 创建 一 个 字典 d ， 映 射 额外 样本 数量 k 
到 一 个 fracs 列表 ， 也 就 是 在 取得 k 个 样本 后 得 到 的 履 盖 率 值 的 列表 。 





def MakeFracCdfs(self, curves): 
d = {} 


for curve in curves: 


for k, frac in curve: 
d.setdefault(k, []).append(frac) 


cdfs = {} 

for k, fracs in d.iteritems(): 
cdf = thinkbayes.MakeCdfFromList(fracs) 
cdfs[k] = cdf 


return cdfs 


| 


这 时 ， 我 们 对 k 的 每 一 个 值 创 建 了 fracs 的 Cdf 对 象 ， 这 个 Cdf 表 示 
了 k 个 样本 后 履 盖 率 的 分 布 。 


CDF 告 诉 了 你 落 入 给 定 阐 值 内 的 概率 ， 而 互 补 CDF 告诉 了 你 超过 立 
值 范围 的 概率 ， 图 15-7 显 示 了 不 同 k 值 范围 下 的 互补 CDF。 
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观测 物种 的 比例 


图 15-7 额外 标记 样本 数 窗 新 范围 的 互补 CDF 


要 理解 该 图 ， 沿 着 x 轴 选 取 一 个 需要 的 履 盖 率 范围 ， 例 如 90%6， 接 
着 从 图 上 就 可 以 发 现 k 次 样本 标记 后 ， 要 达到 90% 履 盖 率 的 概率 。 例 
如 ，200 次 样本 标记 ， 有 和 约 40% 的 机 会 得 到 90% 的 履 产 率 ， 而 1000 次 样本 
标记 ， 就 有 90% 的 机 会 得 到 90% 的 窗 新 率 。 


如 此 ， 我 们 回答 了 未 知 物种 问题 的 全 部 四 个 问题 。 要 以 实际 数据 验 
证 本 章 中 提 到 的 算法 ， 必 须 涉 及 更 多 细节 ， 但 是 这 章 已 经 太 长 ， 所 以 这 
里 我 就 不 再 继续 讨论 了 。 








你 可 以 深入 了 解 一 下 这 类 问题 ， 以 及 我 如 何 找 到 这 些 问题 的 ， 参 考 
http://allendowney.blogspot.com/2013/05/belly-button-biodiversity-end- 
game.html 。 





你 可 以 从 http:/thinkbayes.com/species.py. 下 载 本 章 的 代码 ， 更 多 信 
恩 请 参考 前 言 的 “代码 指南 ”。 


15.13 ”讨论 


未 知 物种 问题 是 一 个 活跃 的 研究 领域 ， 我 相信 本 章 中 的 算法 为 此 页 
献 了 一 些 新 意 。 在 不 到 200 页 的 篇 幅 里 ， 我 们 已 经 从 概率 论 基 础 扩展 到 
了 研究 的 前 治 ， 这 使 我 感到 高 兴 。 


本 书 中 ， 我 的 目的 是 传达 出 3 个 关联 的 理念 。 


。 贝 叶 斯 思维 : 贝 叶 斯 分 析 的 立足 点 是 使 用 概率 分 布 来 表示 疝 不 明 
确 的 观点 ， 通 过 数据 来 修正 这 些 分 布 ， 使 用 得 到 的 结果 进行 预测 和 
提供 决策 信息。 

计算 方法 : 本 书 的 前 提 是 使 用 计算 方法 而 不 是 纯 数学 方法 理解 贝 
叶 斯 分 析 会 更 容易 ， 通 过 可 以 组 合 且 可 以 重复 使 用 的 程序 框架 来 应 
用 贝 叶 斯 方法 也 更 简单 。 

迭 代 模 型 ， 大 多 数 真 实 问题 者 和 建 模 决策 以 及 于 真实 性 和 复杂 性 
之 间 的 权衡 有 关 。 预 先知 道 哪 些 要 素 应 该 纳入 模型 ， 哪 些 要 去 可 以 
被 抽象 到 模型 之 外 通常 是 不 可 能 的 。 最 好 的 办 法 就 是 和 欠 代 ， 从 简单 
PO 
异型 。 


这 些 观念 实用 且 强 大 ， 从 简单 的 例子 到 最 新 的 研究 读 题 ， 它 们 适用 
于 科学 研究 和 工程 的 每 一 个 领域 。 


如 果 你 领会 到 了 ， 你 应 当 已 经 为 用 这 些 工具 来 解决 工作 中 的 新 问题 
做 好 了 准备 ， 希 望 你 友 现 它 的 用 处 ， 要 记得 将 你 的 收获 告诉 我 。 





























GD 译注 : 参考 生物 学 文献 ， 原 文 的 “read” 根 据 上 下 文 翻译 为 标记 样本 或 
样本 或 样本 标记 。 


EAN 
作者 人 简介 
艾 伦 * 唐 尼 是 欧 林 工程 学 院 计 算 机 科学 系 的 教授 。 他 曾 在 韦 尔 斯 利 
学 院 、 科 尔 比 学 院 和 加 州 大 学 伯 殉 利 分 校 教 授 计 算 机 诬 程 。 
他 拥有 U.C. 伯 克利 的 计算 机 科学 博士 学 位 和 麻 省 理工 学 院 的 人 硕士 及 


学 士 学 位 。 


译 者 简介 


许 杨 儿 ， 新 浪 网 系统 架构 师 ， 拉 术 保 障 部 总 监 ， 毕 业 于 湖南 大 
学 ， 拥 有 15 年 互联 网 工作 经 验 。 


大 本 封面 


《 贝 叶 斯 思维 》 一 书 封面 的 动物 是 红 鲜 鱼 (也 称 为 纵 带 羊 鱼 )。 这 
种 可 以 在 地 中 海 、 北 大 西洋 东海 域 和 黑海 发 现 的 须 钢 科 鱼 ， 因 其 第 一 背 
鱼 后 独特 的 条 纹 为 人 所 知 。 红 鱼 鱼 是 地 中 海地 区 人 们 育 睐 的 美味 ， 和 同 
属 的 须 铜 科 鱼 一 一 羊 鱼 一 样 ， 只 是 羊 鱼 没 有 第 一 青鱼 后 的 条 纹 。 然 而 红 
鱼 鱼 要 更 珍 贯 ， 据 说 其 味道 品尝 起 来 类 似 生 星 。 传 说 古 多 马 人 在 池塘 中 
饲养 红 鳍 鱼 ， 宠 爱 并 训练 它们 一 听 到 钟 声 就 喂 饲 。 即 便 是 人 工 养 殖 的 红 
鳃 鱼 一 般 也 不 到 两 磅 重 ， 其 价格 有 时 和 银 圳 一 样 。 

非 野外 环境 下 ， 红 鱼 鱼 于 浅 辰 水 系 饲 养 ， 其 上 下 展 具 有 独特 的 被 称 
为 触须 的 两 根 衣 须 ， 和 触须 用 来 探测 海底 的 食物 。 因 为 饲养 于 较 浅 的 沙滩 
和 兰 石 底部 ， 它 的 触须 与 其 深水 的 近 杀 羊 鱼 相 比 没有 那么 灵敏 。 


封面 图 片 来 自 迈 尔 斯 "元 茉 斯 词典 。 











译 后记 


本 书 的 翻译 其 实 来 自 和 编辑 开 过 的 一 个 玩笑 ， 我 当时 戏说 这 本 书 的 
书 名 Think Bayes 不 妨 译 成 《纪念 贝 叶 斯 老 先 生 》， 而 实际 上 托马斯 ' 贝 
叶 斯 先生 也 的 确 是 一 个 伟大 的 值得 我 们 纪念 的 人 ， 科 学 的 历史 正 是 由 这 
样 一 些 伟 大 的 人 们 推动 的 。 贝 叶 斯 发 展 并 推出 了 我 们 现在 熟悉 的 贝 叶 斯 
定理 ， 而 后 人 们 也 利用 这 一 工具 发 展 出 了 各 种 各 样 的 * 贝 叶 斯 方法 *。 读 
完 这 本 书 ， 我 相信 读者 对 此 会 有 深刻 的 认识 。 


另外 就 是 本 书 的 作者 艾 伦 : 唐 尼 。 他 不 仅 是 一 位 计算 机 学 科教 授 ， 
同时 也 是 一 位 优秀 的 作家 。 在 翻译 本 书 前 ， 我 已 经 读 过 他 的 Think 
Complexity 和 Think Stats， 在 本 书 的 翻译 过 程 中 ， 你 还 可 以 看 到 在 github 
上 他 正在 写作 另 一 本 关于 操作 系统 的 书 ， 书 名 Think OS。 


显然 ，Think Bayes 是 艾 伦 目 前 写 得 最 好 的 一 本 书 ， 原 因 在 于 在 书 中 
不 但 用 编写 Python 程序 的 方式 消除 了 贝 叶 斯 方法 的 学 习 门 槛 ， 而 且 在 每 
章 的 实际 问题 中 ， 艾 伦 还 潜移默化 地 教会 了 读者 怎样 为 具体 问题 建立 数 
学 模型 ， 如 何 抓 住 问题 中 的 主要 矛盾 (模型 中 的 关键 参数 ) ， 再 一 步 一 
步 地 优化 或 者 验证 模型 的 有 效 性 或 者 局 限 性 。 在 这 个 过 程 中 ， 你 还 能 学 
习 到 统计 分 布 中 那些 具体 概念 的 实际 含义 和 用 途 ， 比 如 边缘 分 布 、 联 合 
分 布 、 贝 叶 斯 层次 化 模型 。 


作者 艾 伦 : 唐 尼 在 github 上 托管 了 本 书 所 有 的 Python 代码 ， 阅 读本 书 
的 过 程 中 ， 在 日 己 的 可 器 上 运行 例子 中 的 代码 绝对 是 一 作证 入 满意 的 事 


博 。 




















作者 在 写作 中 还 带 上 了 大 量 的 概率 图 形 ， 借 助 图 表 可 以 帮助 读者 更 
直观 地 理解 有 关 问 题 的 概率 形式 结论 。 


我 的 实际 工作 也 和 贝 叶 斯 方法 有 关联 ， 比 如 我 们 新 浪 邮 箱 就 曾经 采 
用 贝 叶 斯 方法 处 理 垃 圾 邮件 ， 业 务 监 控 系 统 也 可 以 用 贝 叶 斯 方法 来 进行 
异 着 指标 判断 。 全 于 谈 到 系统 建 模 ， 本 书 也 帮助 我 目 己 厘清 了 很 多 有 关 
建 模 决 朱 的 困惑 。 


忆 之 ， 这 本 不 到 200 页 的 书 绝对 值得 一 读 再 读 。 





最 后 ， 我 要 感谢 人 民 邮 电 出 版 社 的 编辑 给 我 机 会 翻译 艾 伦 的 书 。 军 
无 疑问 ， 艾 伦 是 一 个 值得 章 敬 的 科技 书籍 作者 和 恨 师 。 我 还 要 感谢 家 人 
对 翻译 工作 的 文 持 ， 特 别 是 我 在 书房 静心 工作 的 时 候 ， 刚 刚 一 岁 的 小 女 
儿 波 妞 会 很 冬 地 和 妈妈 游戏 ， 没 有 干扰 我 。 谢 谢 我 的 女儿 ， 我 的 爱人 李 
静 ， 当 然 还 有 无 私 地 答 我 照顾 妻 女 的 母亲 。 





译 者 “” 许 杨 煞 
2014 年 8 月 于 顺和 园 北 


欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 社 旗 下 IT 专业 图 书 旗 
舰 社 区 ， 于 2015 年 8 月 上 线 运营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 IT 专业 优质 出 版 资源 和 编 
得 策划 团队 ， 打 造 传统 出 版 与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印刷 与 POD 按 需 印刷 结合 的 出 版 平台 ， 提 供 最 新 技术 资讯 
为 作者 和 读者 打造 交流 互动 的 平台 。 





十 呈 步 并 区 





近期 活动 









异步 社区 成 立 一 周年 大 型 焰 书 活动 开启 ! 
异步 社区 的 来 历 异步 社区 是 人 民 邮 思 出 版 社 旗下 
IT 专 , 业 图 书 齐 舰 社区， 于 2015 年 8 月 上 线 运 
营 ， 异 步 社区 依托 于 人 民 闻 电 出 版 社 20 祭 年 的 IT 
专业 -. 

状 英才 至 2016-08-02 


桨 其 


= iWeb 峰 会 北京 站 即将 开启 ,为 HTML5 晴 
! 


每 一 次 浜 去 高 呼 后 时 行业 的 影响 ， 每 一 天 无 数 人 
藏 萄 业 业 的 惑 吝 ，2016 检 起 ! 未 吧 ，8 月 27 日 
HTML5 妖 会 北京 站 ,我 在 这 里， 等 你 末 ,为 
HTMLS 娜 城 ! ,. 


CCIE 路 举 和 和 交接 认证 等 效 宫 科学 实战 手册 Python 空 码 学 沪 径 


试 指南 ( 第 5 版 ) (第 1 


卷 ) 
辆 ”将 反 害 志 教 2016-07-29 
= 用 污 60 推荐 1 收藏 0 评论 0 
PE pythonGE 和 NS (2 





[ 甘 ] Richard Blum 勃 鲁 好 , Christine 
Bresnahan 布 柔 斯 纳 罕 (作者 ) 阵 谋 明 
马 立 新 ( 译 者 ) 





Python 游戏 坊 程 快速 上 ”机 医学 习 项 目 开 发 实战 。 衬 幕 派 Python 编 程 入 门 。 从 计算 机 科学 家 一 标号 
主 与 实战 ( 第 2 版 ) 者 python ( 第 2 和 厂 ) 


社区 里 都 有 什么 ? 
购买 图 书 

我 们 出 版 的 图 书 涵盖 主流 IT 技 术 ， 在 编程 语言 、Web 搁 术 、 数 据 科 
学 等 领域 有 众多 经 典 畅 销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 
400 多 种 ， 部 分 新 书 实 现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
书 书 讯 。 
下 载 资源 

社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 


另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 
可 以 免费 下 载 。 


与 作 译 者 互动 


很 多 图 书 的 作 译 者 已 经 入 驻 社 区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问 
题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 趣 
的 故事 ， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 回 您 关注 的 作者 提出 采访 题 
目 。 











灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 
邮电 出 版 社 书 库 发 货 ， 电 子 书 提 供 多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 间 
买 到 心仪 的 新 书 。 


用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 





时 ， 在 ”IE 里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 








购买 本 电子 书 的 读者 专 享 异步 社区 优惠 券 。 使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购 书 
时 输入 "57AWG ”然后 点 击 “ 使 用 优惠 码 ”， 即 可 享受 电子 书 8 折 优 惠 〈( 本 优惠 券 只 可 使 用 一 
侈 》 


纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 购 
买 ， 多 种 阅读 选择 。 















































软 技能 : 代码 之 外 的 生存 指南 

[ 闫 ] 约 翰 Z. 森 梅 蔚 ( john Z. Sonmez ) (作者 ) 王 小 刚 ( 译 者 ) 。” 杨 海 玲 (责任 澳 福 ) 
GI | 
分 李 推 害 想 实 阅读 


这 星 一 本 真正 从 “人 ”【( 而 非 按 术 也 非 管 理 ) 的 角度 关注 软件 开发 人 员 已 身 发 展 的 蔬 。 书 中 论述 的 
内 容 茎 涉及 生活 习 悍 ,又 包括 导 维 方式 ,总 显 技术 中 “人 ”的 因素 ， 全面 洪 解 软 件 行业 从 业 人 员 所 
需 知 道 的 所 有 “ 软 技能 ”。 

本 书 暴 焦 于 软件 开发 人 员 生 活 的 方方面面 , 从 更 秘 画 试 的 流程 到 精 耕 绍 作出 一 份 杀手 级 简历 , 从 创 
建 大 过 欢迎 的 博客 到 打 和 址 你 的 个 人 品牌 ， 从 提高 号 己 工 作 效 至 到 与 如 何 与 “ 疮 延 首 ”做 斗争 ， 基 至 
包括 如 何 投资 不 动产 ， 如何 关注 富 己 的 健康 ， 

本 书 共 分 为 职业 简 、 生 我 营销 简 、 学 习 简 、 生 产 力 简 、 理 财 简 、 健 身 简 、 精 神 簿 等 七 简 ， 概括 了 软 


入 纸 质 版 ” 闻 S9.69 着 46.02(78 折 ) 


sre aso ED 


日 电子 版 + 纸 质 版 ” 羊 59.00 


社区 里 还 可 以 做 什么 ? 
提交 勘误 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勘 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 

社区 提供 基于 Markdown 的 写作 环境 ， 台 欢 写作 的 您 可 以 在 此 一 试 
身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 上 自 出 版 的 乐 
趣 ， 轻 松 实现 出 版 的 梦想 。 


LE 





会 议 活 动 早 知 道 
您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 


加 入 异步 


扫描 任意 二 维 码 都 能 找到 我 们 : 








异步 社区 





微 信 服务 号 











QQ 群 : 368449889 


社区 网 址 : www.epubit.com.cn 


官方 微 信 : 异步 社区 


官方 微 博 : @ 人 邮 寞 步 社 区 ，@ 人 民 邮 电 出 版 社 -信息 技术 分 社 


投稿 改 咨询 : ”contact@epubit.com.cn 


